一个通用的并发树爬网算法和一个网站爬网的示例实现。
concurrent_tree_crawler的Python项目详细描述
关于
这个项目是一个python库,它实现了一个通用的并发树爬网算法。实际上,它可以用于需要几个爬网线程来探索树状结构的任务,例如从分层网站下载文档时。
尽管此库的主要应用程序域使用它来爬网具有已知树状结构的网站,但其主要设计目标之一是灵活地将其调整到不同的应用程序区域。图书馆被有意识地发展为在以下3个案例中有用。这里列出了从最小到最一般的情况(从需要库用户最少实现工作的情况到需要库用户最多实现工作的情况)。
库的主要用例
- 使用已知和固定的树状结构对HTML网站进行爬网。在这种方法中,树级别的数量是固定的,并且在某个树级别上的每个页面具有基本相同的结构(即,由同一个解析器解析)。在每个级别上,到较低级别页面的链接不一定放在一个页面上,而是可以分布在多个页面之间。请参见示例测试网站 concurrent戋tree戋u crawler/test/data/original戋u site/issues戋1.html 以获取此类网站的示例。
- 以树状结构爬行其他HTML网站。
- 爬行其他类似树的结构。 < > >