如果我必须为python只选择一个html抓取库,我应该选择哪个

2024-05-15 09:07:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要做大量的html解析/屏蔽/搜索引擎/爬行。在

目前有很多库像scrpy,beautifulsoup,lxml,lxml2请求,pyquery。在

现在我不想尝试每一个然后再决定。基本上我想继续学习一个,然后详细研究,然后经常使用。在

那么,我应该去哪个库才能执行上面提到的所有功能呢。即使对于不同的问题可能有不同的解决方案。但我想要一个库,可以做所有的事情,即使它需要时间编码,但应该是可能的

有可能在lxml中建立索引吗?PyQuery与lxml相同还是不同?在


Tags: 功能编码html时间解决方案事情lxml搜索引擎
2条回答

由于许多HTML文档格式不好,而是一堆标记(有时甚至没有正确嵌套),您可能希望使用beauthulsoup而不是基于xml的解析器。在

我用的是漂亮的汤,我很满意。到目前为止,它满足了我所有的刮擦需求。两大好处:

  • 它非常擅长处理非完美的HTML。由于浏览器相当宽松,许多HTML文档并不是100%格式良好的
  • 除了高级访问api之外,它还具有低级api,如果没有直接提供某些特定的抓取需求,则可以对其进行扩展

相关问题 更多 >