我正在考虑使用Python下载cplusplus.com's C library。我想完全下载它,然后将其转换为一个链接文档,如Python文档。这是我第一次尝试下载首页。你知道吗
#! python3
import urllib.request
filehandle = urllib.request.urlopen('http://www.cplusplus.com/reference/clibrary/')
with open('test.html', 'w+b') as f:
for line in filehandle:
f.write(line)
filehandle.close()
首页下载正确,但其外观与原始网页有很大不同。我所说的“不同的外观”是指在我运行脚本下载网页之后,原来网页上漂亮的格式就消失了。你知道吗
为什么会这样?你知道吗
出现这种情况的原因是,您的scraped版本不包括页面链接到的层叠样式表(CSS)。它也不会包含任何图像或javascript链接到任何一个。如果你想获得链接的文件,你必须解析你为他们刮的源代码。你知道吗
相关问题 更多 >
编程相关推荐