我需要在运行时从服务器端的随机网页中提取纯文本。我使用Google App Engine和可读性python端口。
有很多。
- 早期version by gfxmonk,基于美化组
- version by minvolai基于gfxmonk的except使用lxml而不是BeautifulSoap,使得它(根据minvolai的说法,见项目页面)更快,尽管引入了对lxml的依赖。
- version by Yuri Baburov aka buriy。与minvolai一样,依赖于lxml。也依赖于chardet来检测编码。
我使用尤里的版本,因为它是最新的,似乎在积极发展。
我使用Python2.7在谷歌应用引擎上运行了它。
现在的“问题”是它返回HTML,而我需要纯文本。
在this Stackoverflow article about links extraction中的建议是使用BeatifulSoup。如果没有别的选择,我会的。BeatifulSoup将是另一个依赖项,因为我使用基于lxml的版本。
我的问题:
- 有没有一种方法可以从我使用的Python可读性版本获得纯文本,而无需分叉代码?
- 有没有一种方法可以很容易地从Python可读性的HTML结果中检索纯文本,例如使用lxml、BeatifulSoap、RegEx或其他方法
- 如果上面的答案是否定的,或者是肯定的,但是不容易,那么修改Python可读性的方法是什么。这样的修改是否足够(对足够多的人)使这种扩展成为正式的?
Tags:
目前没有回答
相关问题 更多 >
编程相关推荐