python 提取 html 标签

0 投票
2 回答
629 浏览
提问于 2025-04-16 02:55

以下是如何实现这个功能的想法:

  1. 浏览一个网页(最好是整个网站,比如 www.python.org),并提取所有的

h1、h2 直到 hn 标签

然后把所有的标题写入一个文件中,顺序要正确:

先从 h1 开始

然后是 h2

一直到下一个 h1 为止

2 个回答

2

可以使用 BeautifulSoup 或者 PyQuery

1

如果你需要扫描整个网站,可以考虑使用pycurl这个工具来获取你想要抓取的文件。不过要小心,不要让这个操作像是对网站发起了拒绝服务攻击(DoS攻击)那样,影响到网站的正常运行。

撰写回答