https页面的Html源代码在手动获取时与使用HTTPConnection时不同

2024-03-28 18:56:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我是python新手,我一直在尝试获取“https”页面的html源代码。多亏了一个previous问题,我现在可以提取部分源代码了,但没有手动打开页面查看源代码时提取的那么多。你知道吗

当我使用python手动打开HTTPS页面的源代码时,有没有一种简单的方法来获取我看到的全部代码?你知道吗

以下是我目前使用的代码:

import http.client
from urllib.parse import urlparse
url = "https://www.google.ca/?gfe_rd=cr&ei=u6d_VbzoMaei8wfE1oHgBw&gws_rd=ssl#q=test"
p = urlparse(url)
conn = http.client.HTTPConnection(p.netloc)
conn.request('GET', p.path)
resp = conn.getresponse()

text_file = open("google_test_python.txt", "wb")
for i in resp:
    text_file.write(i)
text_file.close()

Tags: 代码texthttpsimportclienthttpurl源代码