由于目标站点的变化,蜘蛛可能会被破坏,从而导致不同的页面布局(因此,断开的XPath和CSS提取器)。然而,通常情况下,页面的信息内容仍然大致相似,只是形式或布局不同。在某些幸运的情况下,该工具可以自动推断提取规则,以使蜘蛛保持最新的站点更改。

scrapy-spider-auto-repair的Python项目详细描述


由于目标站点的变化,蜘蛛可能会被破坏,从而导致不同的页面布局(因此,断开的XPath和CSS提取器)。然而,通常情况下,页面的信息内容仍然大致相似,只是形式或布局不同。在某些幸运的情况下,该工具可以自动推断提取规则,以使蜘蛛保持最新的站点更改。

  • 此包Python名称:scrapy-spider-auto-repair
  • 目前版本: scrapy-spider-auto-repair 0.1.4
  • 最后维护时间:Aug 13, 2018
  • 摘要:Spiders can become broken due to changes on the target site, which lead to different page layouts (therefore, broken XPath and CSS extractors). Often however, the information content of a page remains roughly similar, just in a different form or layout. This tool that can, in some fortunate cases, automatically infer extraction rules to keep a spider up-to-date with site changes.
  • 安装命令:pip install scrapy-spider-auto-repair
  • 其它:scrapy-spider-auto-repair 这个Python第三方库的作者没有提供更多的项目描述信息了,2019-11-10 23:44:14。
  • 可以返回 PyPI第三方库 首页,查找更多相关Python包程序。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Java中使用Kotlin值类   在Hadoop中表示大文本块作为键的java   java安卓工作室;布局设计视图;   字典Java确定字符串是否以映射中的键开头   JavaG1:混合gc和完全gc之间有什么区别?   java Camunda升级组织。阿帕奇。平民语言错误   java Scanner类具有NextLine无限循环   安卓 GCM Java服务器:发送带有重音字符的消息   java我正在构建一个兴趣计算应用程序,我的项目构建良好,有1个警告,但它不会在我的设备上打开   java在Tilera TileGX上构建OpenJDK 8   GUI中的java惰性初始化与急切初始化   java JodaTime四舍五入到最近的一刻钟   java如何限制菜单。SpringRoo中的jspx可以避免对其他用户的实体执行CRUD操作   java我应该将缓冲流链接到输入流,还是在将声音库作为嵌入式资源加载时使用URL类?