Python中有没有类似于readability.js的工具?
我在找一个包、模块或者函数,差不多可以和Arc90的readability.js在Python中对应。
http://lab.arc90.com/experiments/readability
http://lab.arc90.com/experiments/readability/js/readability.js
我希望能给它一些输入的HTML,然后它能把这个HTML页面的主要内容清理出来。我想在服务器端使用这个(而不是像JS版本那样只能在浏览器上运行)。
有没有什么好的建议?
附:我试过Rhino和env.js的组合,虽然能用,但速度太慢,清理大部分HTML内容要花几分钟 :((我还是没找到为什么性能差这么多的原因)。
6 个回答
2
这个内容来自于一个叫做 hn.py 的链接,出现在 Readability的博客 上。还有一个叫做 Readable Feeds 的应用,它是基于App Engine开发的,使用了这个工具。
我把它打包成了一个可以通过pip安装的模块,地址在这里: http://github.com/srid/readability
4
我们刚刚在repustate.com推出了一个新的自然语言处理API。通过这个REST API,你可以清理任何HTML或PDF文件,只提取出文本部分。我们的API是免费的,欢迎你尽情使用。而且它是用python实现的。你可以试试,把结果和readability.js对比一下,我觉得你会发现它们几乎是100%相同的。
11
请试试我的版本,链接在这里:https://github.com/buriy/python-readability。这个版本运行速度快,并且具备最新的JavaScript版本的所有功能。