用beautifulsoup处理非格式html的简单scrapy中间件

scrapy-beautifulsoup的Python项目详细描述


PyPI versionRequirements Status

刮花美容组

用beautifulsoup处理非格式html的简单scrapy中间件

安装

包位于pypi上,可以使用pip

安装
pip install scrapy-beautifulsoup

配置

将中间件添加到DOWNLOADER_MIDDLEWARES字典设置:

DOWNLOADER_MIDDLEWARES = {
    'scrapy_beautifulsoup.middleware.BeautifulSoupMiddleware': 400
}

默认情况下,BeautifulSoup将使用内置的html.parser解析器。要更改它,请设置BEAUTIFULSOUP_PARSER设置:

BEAUTIFULSOUP_PARSER = "html5lib"  # or BEAUTIFULSOUP_PARSER = "lxml"

html5lib是一个极为宽松的解析器,如果目标html严重损坏,您可以考虑将其作为您的首选。 注意:在这种情况下,html5lib必须安装:

pip install html5lib

动机

BeautifulSoup本身在underlying parser of choice的帮助下处理格式不正确或损坏的html的工作相当出色。 在某些情况下,通过BeautifulSoup来“修复”html是有意义的。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Requestcontextholder在spring 4中具有并发访问权限。IBMWebSphere上的x Web应用程序?   java如何下载、设置和使用Eclipse?   java如何组合这些mysql语句   java JDBC无法连接到openshift上的mysql数据库   如果存在允许正确处理的重载,java对于方便的方法来说是否可行?   使用hibernate序列的java Spring MVC不存在   具有路径的java Selenium ChromeDriver负载扩展问题   读一本书。java中的java文件   退出队列时,Java队列程序结果为空   Java lambda返回带有重复代码问题的列表   java使用意图从其他活动传递数据并在listview中显示   java如何在java中创建JSON输出   java Android:在不破坏或暂停活动的情况下关闭显示   支持Android电视和手机的java多apk   关于Java应用程序测试和调试的一组问题   如何在JavaSE中使用jdbcRealmShiro进行授权   在java中是否有一个无异常检查的URL解析实用程序?   当页面上有多个相同类型的元素时,java会选择一个特定的元素   递归需要帮助发现java代码中的缺陷