用beautifulsoup处理非格式html的简单scrapy中间件

scrapy-beautifulsoup的Python项目详细描述


PyPI versionRequirements Status

刮花美容组

用beautifulsoup处理非格式html的简单scrapy中间件

安装

包位于pypi上,可以使用pip

安装
pip install scrapy-beautifulsoup

配置

将中间件添加到DOWNLOADER_MIDDLEWARES字典设置:

DOWNLOADER_MIDDLEWARES = {
    'scrapy_beautifulsoup.middleware.BeautifulSoupMiddleware': 400
}

默认情况下,BeautifulSoup将使用内置的html.parser解析器。要更改它,请设置BEAUTIFULSOUP_PARSER设置:

BEAUTIFULSOUP_PARSER = "html5lib"  # or BEAUTIFULSOUP_PARSER = "lxml"

html5lib是一个极为宽松的解析器,如果目标html严重损坏,您可以考虑将其作为您的首选。 注意:在这种情况下,html5lib必须安装:

pip install html5lib

动机

BeautifulSoup本身在underlying parser of choice的帮助下处理格式不正确或损坏的html的工作相当出色。 在某些情况下,通过BeautifulSoup来“修复”html是有意义的。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在Java中从本地文件系统导入文件   spring boot如何在Java SpringBoot项目中集成Olingo(Odata)   java查找连续数组中缺少的第k个元素(超过时间限制)   java为什么在mySql中插入1/2行时会得到2/4行   java不能在静态上下文中使用它   File Observer方法的java My onEvent()部分不起作用   java Netty NioSocketChannel在多线程写入时收到中断消息   java将文件夹与父文件夹一起复制   java我的TictaToe代码出了什么问题?如何检查已采取的措施?   java Swing JTable更新   java如何将cordinates查找为int   如何使用selenium和java在firefox中打开新的空选项卡   java Gradle构建输出Jar未运行   java没有GET/WEBINF/jsp/login的映射。jsp