如果我必须为python只选择一个html抓取库，我应该选择哪个 - 问答 - Python中文网

如果我必须为python只选择一个html抓取库，我应该选择哪个

2024-05-15 09:07:24 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我需要做大量的html解析/屏蔽/搜索引擎/爬行。在

目前有很多库像scrpy，beautifulsoup，lxml，lxml2请求，pyquery。在

现在我不想尝试每一个然后再决定。基本上我想继续学习一个，然后详细研究，然后经常使用。在

那么，我应该去哪个库才能执行上面提到的所有功能呢。即使对于不同的问题可能有不同的解决方案。但我想要一个库，可以做所有的事情，即使它需要时间编码，但应该是可能的

有可能在lxml中建立索引吗？PyQuery与lxml相同还是不同？在

Tags：功能编码 html 时间解决方案事情 lxml 搜索引擎

2条回答

网友

1楼 · 编辑于 2024-05-15 09:07:24

由于许多HTML文档格式不好，而是一堆标记（有时甚至没有正确嵌套），您可能希望使用beauthulsoup而不是基于xml的解析器。在

网友

2楼 · 编辑于 2024-05-15 09:07:24

我用的是漂亮的汤，我很满意。到目前为止，它满足了我所有的刮擦需求。两大好处：

它非常擅长处理非完美的HTML。由于浏览器相当宽松，许多HTML文档并不是100%格式良好的
除了高级访问api之外，它还具有低级api，如果没有直接提供某些特定的抓取需求，则可以对其进行扩展

相关问题更多 >

编程相关推荐

热门问题

热门文章