一个通用的并发树爬网算法和一个网站爬网的示例实现。

concurrent_tree_crawler的Python项目详细描述


关于

这个项目是一个python库,它实现了一个通用的并发树爬网算法。实际上,它可以用于需要几个爬网线程来探索树状结构的任务,例如从分层网站下载文档时。

尽管此库的主要应用程序域使用它来爬网具有已知树状结构的网站,但其主要设计目标之一是灵活地将其调整到不同的应用程序区域。图书馆被有意识地发展为在以下3个案例中有用。这里列出了从最小到最一般的情况(从需要库用户最少实现工作的情况到需要库用户最多实现工作的情况)。

库的主要用例

  1. 使用已知和固定的树状结构对HTML网站进行爬网。在这种方法中,树级别的数量是固定的,并且在某个树级别上的每个页面具有基本相同的结构(即,由同一个解析器解析)。在每个级别上,到较低级别页面的链接不一定放在一个页面上,而是可以分布在多个页面之间。请参见示例测试网站 concurrent戋tree戋u crawler/test/data/original戋u site/issues戋1.html 以获取此类网站的示例。
  2. 以树状结构爬行其他HTML网站。
  3. 爬行其他类似树的结构。
  4. < > >

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在数据库中插入行时自动发送电子邮件?   从进程输出读取的Java问题   java质疑StyledDocument和JTextPane之间的关系,以及接口的正确使用   java错误getPlayer(args[0]);   java如何使Spring引导在重新打包的WAR中包含清单文件?   Java中的除法与模   java使用2d数组和JfreeChart制作散点图   java扩展SonarQube FindBugs插件和自定义FindBugs插件   javaspring:hibernate+ehcache   具有不正确的equals和HashCode实现的java HashMap   java Jaspersoft报告网。旧金山。jasperreports。发动机例外:net。旧金山。jasperreports。发动机填满JRepressionEvalException:计算表达式时出错   java如果输入与其变量不匹配,如何添加错误   在java中使用简单数组[]实现队列   无法启动上下文路径/hsx上的java FAIL应用程序