简单现场设计师
sitemapbuilder的Python项目详细描述
一个简单的站点地图生成器
网站地图生成器遍历网站的链接并将自身约束为 给定的域名。最终的结果将是一个简单的网站地图 从访问的链接。爬网程序将只接受&;处理具有 http或https方案。
安装和使用
运行以下命令安装工具:
pip install -U sitemapbuilder
要运行站点地图生成器:
sitemapbuilder -u 'https://monzo.com' -o test_monzo.dot
有些网站具有强大的保护功能,该工具对它们不起作用:
sitemapbuilder -u 'https://bloomberg.com' -o test_bloomberg.dot
亮点
- 生成graphviz.dot文件,显示页面之间的定向链接。可以生成png/pdf和其他图像/文档格式。
- 默认情况下,访问同一主机名内的Web链接。
- 默认情况下使用5个线程,并在10秒后超时。
- 获取URL时,5秒后超时。
- 查询网站时处理超时异常。
- 发送http head请求并验证内容类型是文本/html和字符集是utf-8还是us-ascii。
- 有一个访问的网址地图,以避免再次访问它们。
- 遵循http重定向。
即将推出的功能
- 通过命令参数配置线程数和超时。
- 允许来自所有子域的Web链接。
- 允许来自域列表的Web链接。
- 允许与模式匹配的Web链接。
- 为分层站点地图而不是有向图添加一个选项。
- 使用priorityqueue而不是queue首先处理衰减程度较高的链接。
- 精细的格兰德信息,警告和错误记录。
- 从文件传递种子链接。
- 保存到数据库/持久数据源并从中恢复。
- 更快的并发性和更好的异步性能。