Python ftr包_程序模块 - PyPI

html文章清理器/提取器，五个过滤器兼容。

ftr的Python项目详细描述

#python ftr

ftr是[five filters extractor]的partial（re-）实现 ]（http://fivefilters.org/）在python中。

它清理HTML网页并提取其内容和元数据更舒适的阅读体验（或任何你需要的）。它使用要解析的配置文件的集中化和互惠化存储库尽可能精确的网站，并退回到众所周知的可读性如果未找到配置，则自动提取程序。

一个显著的区别是，这个python实现将获取从Internet上的集中存储库在如果在本地找不到配置，则运行。

[有完整的文档]（http://python-ftr.readthedocs.org）。

##与fivefilters php实现的区别

python ftr: -目前只有一个解析器库（lxml）。html5lib尚未移植。 -不将日期字符串转换为对象。我觉得这样更灵活，可以在上层处理它们，让用户能够访问定制的解析器。如果我实现了将自定义解析函数传递给提取器，这种情况可能会改变。 -使用[可读性lxml]（https://github.com/buriy/python-readability）在非自动正文提取之后进行清理。即使它是arc90的readability.js的一个端口，就像5个过滤器使用的[php readability port]（https://github.com/wallabag/wallabag/blob/master/inc/3rdparty/libraries/readability/Readability.php）一样，它最终也可能产生不同的结果，因为它们计算内容权重的方式不同（我没有按代码比较）。 -在没有可用的站点配置时不会回退到自动分析，但在找到配置并失败时会部分回退。由于python ftr是为了包含在复杂的解析链中而创建的，因此当当前站点没有配置时，我们不需要自动解析。详情见下文。 -没有指纹支持。这个特性看起来还没有完成，或者至少没有足够的文档让我在原始代码中理解它。 -完全不使用globalfive filters配置文件。.txt看起来未维护，通用回退仍可以在此模块之外实现：使用api时，可以通过参数提供自己的全局配置。

##自动提取

如果您需要在未找到配置的情况下进行全自动分析-这很容易检测到，因为process（）和低级API提高了siteconfignotfound-只需使用可读性lxml，可浏览性，python goose，汤过滤器或任何适合您的方法。

在A^ { STR 1 } $现有配置但解析失败< /强>的原因中，我们仍然尊重 AutoTraceTyOnOpReult并尝试通过可读性LXML/CITE >提取标题和正文。

这并不像php实现那样有特色，php实现试图通过其他方式提取日期、语言和作者，但仍然比什么都没有要好。

使用自动提取时，ContentExtractor实例将具有一个.failures属性，精确列出哪些非自动提取失败。

如果找到配置但没有site或body指令（例如，应明确使用自动提取），则如果自动提取成功，则不会设置failures属性。

##待办事项

有关动态todo列表，请参见[问题愿望列表]（/1flow/python ftr/labels/wishlist）。

##许可证

GNU Affero GPL版本3。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
karmak23
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何实现一个类，该类在每次更改其属性时更改其“last_edited”变量？
如何实现一个类？
如何实现一个类的属性设置？
如何实现一个能够存储输入并反复访问输入的存储系统？GPA计算器
如何实现一个自定义的keras层，它只保留前n个值，其余的都归零？
如何实现一个行为类似于Python中序列的最小类？
如何实现一个请求的多线程或多处理
如何实现一个长时间运行的、事件驱动的python程序？
如何实现一个颜色一致的非舔深度地图实时？
如何实现一个默认的SQLAlchemy模型类，它包含用于继承的公共CRUD方法？
如何实现一次热编码的生成函数
如何实现一种在数组中删除对的方法
如何实现一类支持向量机用于图像异常检测
如何实现一维阵列到二维阵列的复制转换
如何实现三维三次样条插值？

ftr 0.9.3

ftr的Python项目详细描述

推荐PyPI第三方库

hand_env

pyswitcherv2

recordb

tap-mailchimp

solidstage

typedtensor

jupyternotebookgist

recommonmark

pypairix

xeko

spm-kernel

pyzy3d

ChunkyPipes

python-timbl

avroschemaserializer

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

ftr 0.9.3

ftr的Python项目详细描述

推荐PyPI第三方库

hand_env

pyswitcherv2

recordb

tap-mailchimp

solidstage

typedtensor

jupyternotebookgist

recommonmark

pypairix

xeko

spm-kernel

pyzy3d

ChunkyPipes

python-timbl

avroschemaserializer

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签