Python: 解析WordPress HTML
我正在尝试建立一个博客地图网站,目的是找出一组博客中的当前趋势。为了方便起见,我将专注于一份特定的Wordpress博客列表。
请问有没有Python的工具包可以解析Wordpress的HTML呢?
我想要的功能有:
- 识别(给定的HTML是否是一个Wordpress博客)
- 博客属性(名字、文章、RSS链接、博客链接等)
- 文章属性(标题、内容、标签等)
如果没有这样的工具包,我可以自己做一个开源项目,但如果有现成的工具包,那就能省我很多时间。
1 个回答
3
据我所知,目前没有专门解析WordPress HTML的库,不过有一些通用的HTML解析库,比如html5lib和BeautifulSoup。
我推荐你使用html5lib+lxml.html
。