下载页面与原始页面不同

2024-04-24 05:32:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在考虑使用Python下载cplusplus.com's C library。我想完全下载它,然后将其转换为一个链接文档,如Python文档。这是我第一次尝试下载首页。你知道吗

#! python3
import urllib.request

filehandle = urllib.request.urlopen('http://www.cplusplus.com/reference/clibrary/')

with open('test.html', 'w+b') as f:
    for line in filehandle:
        f.write(line)

filehandle.close()

首页下载正确,但其外观与原始网页有很大不同。我所说的“不同的外观”是指在我运行脚本下载网页之后,原来网页上漂亮的格式就消失了。你知道吗

为什么会这样?你知道吗


有人能解释一下反对票吗?有什么问题吗?不允许新手提问?

Tags: 文档importcomhttp网页链接requestline
1条回答
网友
1楼 · 发布于 2024-04-24 05:32:58

出现这种情况的原因是,您的scraped版本不包括页面链接到的层叠样式表(CSS)。它也不会包含任何图像或javascript链接到任何一个。如果你想获得链接的文件,你必须解析你为他们刮的源代码。你知道吗

相关问题 更多 >