一个通用的并发树爬网算法和一个网站爬网的示例实现。

concurrent_tree_crawler的Python项目详细描述


关于

这个项目是一个python库,它实现了一个通用的并发树爬网算法。实际上,它可以用于需要几个爬网线程来探索树状结构的任务,例如从分层网站下载文档时。

尽管此库的主要应用程序域使用它来爬网具有已知树状结构的网站,但其主要设计目标之一是灵活地将其调整到不同的应用程序区域。图书馆被有意识地发展为在以下3个案例中有用。这里列出了从最小到最一般的情况(从需要库用户最少实现工作的情况到需要库用户最多实现工作的情况)。

库的主要用例

  1. 使用已知和固定的树状结构对HTML网站进行爬网。在这种方法中,树级别的数量是固定的,并且在某个树级别上的每个页面具有基本相同的结构(即,由同一个解析器解析)。在每个级别上,到较低级别页面的链接不一定放在一个页面上,而是可以分布在多个页面之间。请参见示例测试网站 concurrent戋tree戋u crawler/test/data/original戋u site/issues戋1.html 以获取此类网站的示例。
  2. 以树状结构爬行其他HTML网站。
  3. 爬行其他类似树的结构。
  4. < > >

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Cassandra复制因子大于节点数   java J2EE JTA事务回滚不适用于OSE Glassfish 4.0(Build 89)   java spring安全预认证用户登录   org的java类文件。反应流。从RxJava编译示例时未找到Publisher?   java在使用dataFormat作为POJO通过Camel调用Web服务时无法设置SOAP标头   Javafx类的java静态实例   java如何防止一个部件在关闭时覆盖另一个部件的位置   sql server无法从我的java代码连接到数据库   java在JList(Swing)中显示带有的ArrayList   从Java中的CXF服务获取WSAddressing数据   使用资产文件夹进行java简单json解析(本地)   java LDAPException未绑定的无效凭据   JavaJSFspring部署到weblogic   JAVA中字符数组中的特定元素排列?   如果脚本位于不同的目录中,则ant不会使用exec标记运行Javashell脚本