简单现场设计师

sitemapbuilder的Python项目详细描述


一个简单的站点地图生成器

网站地图生成器遍历网站的链接并将自身约束为 给定的域名。最终的结果将是一个简单的网站地图 从访问的链接。爬网程序将只接受&;处理具有 http或https方案。

安装和使用

运行以下命令安装工具:

pip install -U sitemapbuilder

要运行站点地图生成器:

sitemapbuilder -u 'https://monzo.com' -o test_monzo.dot

有些网站具有强大的保护功能,该工具对它们不起作用:

sitemapbuilder -u 'https://bloomberg.com' -o test_bloomberg.dot

亮点

  1. 生成graphviz.dot文件,显示页面之间的定向链接。可以生成png/pdf和其他图像/文档格式。
  2. >可配置衰变(最大深度)以避免滥用。
  3. 默认情况下,访问同一主机名内的Web链接。
  4. 默认情况下使用5个线程,并在10秒后超时。
  5. 获取URL时,5秒后超时。
  6. 查询网站时处理超时异常。
  7. 发送http head请求并验证内容类型文本/html字符集utf-8还是us-ascii
  8. 有一个访问的网址地图,以避免再次访问它们。
  9. 遵循http重定向。

即将推出的功能

  • 通过命令参数配置线程数和超时。
  • 允许来自所有子域的Web链接。
  • 允许来自域列表的Web链接。
  • 允许与模式匹配的Web链接。
  • 为分层站点地图而不是有向图添加一个选项。
  • 使用priorityqueue而不是queue首先处理衰减程度较高的链接。
  • 精细的格兰德信息,警告和错误记录。
  • 从文件传递种子链接。
  • 保存到数据库/持久数据源并从中恢复。
  • 更快的并发性和更好的异步性能。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JPanel不会对键绑定做出反应   当时间大于零时,不得在UI线程上调用java Await   JTextArea的java线程安全。追加   Java用户输入的字和行计数器   java以spreedsheat格式将数据保存到文件中   java构造函数的意义是什么?   java findViewById返回null,尽管组件的ID存在   java如何向按钮添加图像   java如何中断ExecutorService的线程   java如何将属性(例如枚举)绑定到不同类型的组件属性(例如每个枚举的映像)?   随机森林分类器的java实现   html使用java连接到一个站点并发布,HTTP状态代码200   从类访问属性时发生java编译错误   Java自动填充ArrayList,搜索更好的选项