Python: 解析WordPress HTML

2 投票
1 回答
908 浏览
提问于 2025-04-16 15:18

我正在尝试建立一个博客地图网站,目的是找出一组博客中的当前趋势。为了方便起见,我将专注于一份特定的Wordpress博客列表。

请问有没有Python的工具包可以解析Wordpress的HTML呢?

我想要的功能有:

  • 识别(给定的HTML是否是一个Wordpress博客)
  • 博客属性(名字、文章、RSS链接、博客链接等)
  • 文章属性(标题、内容、标签等)

如果没有这样的工具包,我可以自己做一个开源项目,但如果有现成的工具包,那就能省我很多时间。

1 个回答

3

据我所知,目前没有专门解析WordPress HTML的库,不过有一些通用的HTML解析库,比如html5libBeautifulSoup

我推荐你使用html5lib+lxml.html

撰写回答