最后一个站点地图分析器
ultimate-sitemap-parser的Python项目详细描述
用于Python3.5+的网站站点地图分析器。
功能
- 支持所有站点地图格式:
- 作为Media Cloud project 的一部分,使用大约100万个url进行了现场测试
- 更常见的站点地图错误的容错性
- 尝试查找robots.txt 中未列出的站点地图
- 使用快速且节省内存的expat xml解析
- 即使有大量的站点地图层次结构,也不会占用太多内存
- 提供生成的站点地图树作为易于使用的对象树
- 支持使用自定义Web客户端
- 使用少量主动维护的第三方模块
- 经过合理测试
安装
pip install ultimate_sitemap_parser
用法
fromusp.treeimportsitemap_tree_for_homepagetree=sitemap_tree_for_homepage('https://www.nytimes.com/')print(tree)
sitemap_tree_for_homepage()将返回表示站点地图的AbstractSitemap子类对象的树 在网站上找到层次结构;请参见reference of AbstractSitemap subclasses。
如果您只想列出网站内所有站点地图中找到的所有页面,请考虑使用all_pages()方法:
# all_pages() returns an Iteratorforpageintree.all_pages():print(page)
all_pages()方法将返回生成SitemapPage对象的迭代器;请参见reference of SitemapPage。