使用htmlparse替换html文件中的图像和CSS源URL(python)
我正在尝试写一个脚本,下载一个网页,包括所有的图片和样式表,也就是说,想让本地的版本看起来和原版一模一样。
最开始我只是下载图片,但我意识到我必须编辑HTML源代码,这样图片的链接才能指向本地的图片。既然我反正要修改HTML源代码,我觉得直接更新本地文件,让它指向远程的图片和样式表会更好。
所以我想问,我能不能用htmlparse来查找样式表和图片标签,然后把它们的链接替换成更新后的版本呢?
我看过htmlparse的文档,但我对Python还是比较陌生,有些地方不太明白。我在想,是否可以用:
HTMLParser.handle_data(data)
This method is called to process arbitrary data. It is intended to be overridden by a
derived class; the base class implementation does nothing.
然后加上我自己的替换类?还是说我完全走错了方向?
当然,另一个选择是使用正则表达式来查找标签并替换后面的文本,但这可能会变得相当复杂,所以我在想htmlparse是否能提供一个更简单的解决方案。
我知道beautiful soup是理想的解决方案,但因为我会把这个工具分发到公司里,所以不幸的是我不能使用任何第三方模块。同样,我希望这个工具能够跨平台,所以也不能使用wget。
谢谢大家的建议 =)
1 个回答
1
如果你把Python程序打包成一个独立的二进制文件(这样就连Python运行环境都不需要了),你可以随心所欲地使用任何模块。你可以使用这个工具来实现:http://www.pyinstaller.org/