python 提取 html 标签
以下是如何实现这个功能的想法:
- 浏览一个网页(最好是整个网站,比如 www.python.org),并提取所有的
h1、h2 直到 hn 标签
然后把所有的标题写入一个文件中,顺序要正确:
先从 h1 开始
然后是 h2
一直到下一个 h1 为止
2 个回答
2
可以使用 BeautifulSoup 或者 PyQuery。
1
如果你需要扫描整个网站,可以考虑使用pycurl这个工具来获取你想要抓取的文件。不过要小心,不要让这个操作像是对网站发起了拒绝服务攻击(DoS攻击)那样,影响到网站的正常运行。