Python中文
首页
教程
问答
标签
搜索
登录
注册
如果我必须为python只选择一个html抓取库,我应该选择哪个
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我需要做大量的html解析/屏蔽/搜索引擎/爬行。在</p> <p>目前有很多库像scrpy,beautifulsoup,lxml,lxml2请求,pyquery。在</p> <p>现在我不想尝试每一个然后再决定。基本上我想继续学习一个,然后详细研究,然后经常使用。在</p> <p>那么,我应该去哪个库才能执行上面提到的所有功能呢。即使对于不同的问题可能有不同的解决方案。但我想要一个库,可以做所有的事情,即使它需要时间编码,但应该是可能的</p> <p>有可能在lxml中建立索引吗?PyQuery与lxml相同还是不同?在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>我用的是漂亮的汤,我很满意。到目前为止,它满足了我所有的刮擦需求。两大好处:</p> <ul> <li>它非常擅长处理非完美的HTML。由于浏览器相当宽松,许多HTML文档并不是100%格式良好的</li> <li>除了高级访问api之外,它还具有低级api,如果没有直接提供某些特定的抓取需求,则可以对其进行扩展</li> </ul>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
Django:。是不是“超级用户”字段不起作用
5 回答
Django:'DeleteQuery'对象没有属性'add'
5 回答
Django:'ModelForm'对象没有属性
1 回答
Django:'python manage.py runserver'返回'TypeError:'WindowsPath'类型的对象没有len()
8 回答
Django:'Python管理.pysyncdb'不创建我的架构表
3 回答
Django:'Python管理.py迁移“耗时数小时(和其他奇怪的行为)
5 回答
Django:'readonly'属性在我的ModelForm上不起作用
4 回答
Django:'RegisterEmployeeView'对象没有属性'object'
5 回答
Django:'str'对象没有属性'get'
8 回答
Django:'创建' 不能被指定为Order模型表单中的值,因为它是一个不可编辑的字段
5 回答
Django:“'QuerySet'类型的对象不是JSON可序列化的”
5 回答
Django:“'utf8'编解码器无法解码位置19983中的字节0xe9:无效的连续字节”,加载临时文件时
1 回答
Django:“<…>”需要有一个字段“id”的值,然后才能使用这个manytomy关系
9 回答
Django:“AnonymousUser”对象没有“get_full_name”属性
1 回答
Django:“ascii”编解码器无法解码位置1035中的字节0xc3:序号不在范围内(128)
7 回答
Django:“BaseTable”对象不支持索引
2 回答
Django:“collections.OrderedDict”对象不可调用
3 回答
Django:“Country”对象没有属性“all”
4 回答
Django:“Data”对象没有属性“save”
5 回答
Django:“datetime”类型的对象不是JSON serializab
2 回答