2024-05-15 09:07:24 发布
网友
我需要做大量的html解析/屏蔽/搜索引擎/爬行。在
目前有很多库像scrpy,beautifulsoup,lxml,lxml2请求,pyquery。在
现在我不想尝试每一个然后再决定。基本上我想继续学习一个,然后详细研究,然后经常使用。在
那么,我应该去哪个库才能执行上面提到的所有功能呢。即使对于不同的问题可能有不同的解决方案。但我想要一个库,可以做所有的事情,即使它需要时间编码,但应该是可能的
有可能在lxml中建立索引吗?PyQuery与lxml相同还是不同?在
由于许多HTML文档格式不好,而是一堆标记(有时甚至没有正确嵌套),您可能希望使用beauthulsoup而不是基于xml的解析器。在
我用的是漂亮的汤,我很满意。到目前为止,它满足了我所有的刮擦需求。两大好处:
由于许多HTML文档格式不好,而是一堆标记(有时甚至没有正确嵌套),您可能希望使用beauthulsoup而不是基于xml的解析器。在
我用的是漂亮的汤,我很满意。到目前为止,它满足了我所有的刮擦需求。两大好处:
相关问题 更多 >
编程相关推荐