使用htmlparse替换html文件中的图像和CSS源URL（python）

4 投票

1 回答

817 浏览

数据工程师

提问于 2025-04-17 02:26

我正在尝试写一个脚本，下载一个网页，包括所有的图片和样式表，也就是说，想让本地的版本看起来和原版一模一样。

最开始我只是下载图片，但我意识到我必须编辑HTML源代码，这样图片的链接才能指向本地的图片。既然我反正要修改HTML源代码，我觉得直接更新本地文件，让它指向远程的图片和样式表会更好。

所以我想问，我能不能用htmlparse来查找样式表和图片标签，然后把它们的链接替换成更新后的版本呢？

我看过htmlparse的文档，但我对Python还是比较陌生，有些地方不太明白。我在想，是否可以用：

HTMLParser.handle_data(data)
This method is called to process arbitrary data. It is intended to be overridden by a 
derived class; the base class implementation does nothing.

然后加上我自己的替换类？还是说我完全走错了方向？

当然，另一个选择是使用正则表达式来查找标签并替换后面的文本，但这可能会变得相当复杂，所以我在想htmlparse是否能提供一个更简单的解决方案。

我知道beautiful soup是理想的解决方案，但因为我会把这个工具分发到公司里，所以不幸的是我不能使用任何第三方模块。同样，我希望这个工具能够跨平台，所以也不能使用wget。

谢谢大家的建议 =)

正则表达式图像处理 css HTML 本地化网页下载标签替换 htmlparse

1 个回答

如果你把Python程序打包成一个独立的二进制文件（这样就连Python运行环境都不需要了），你可以随心所欲地使用任何模块。你可以使用这个工具来实现：http://www.pyinstaller.org/

回答于 2025-04-17 由 Python大师

分享举报

使用htmlparse替换html文件中的图像和CSS源URL（python）

1 个回答

撰写回答