有没有办法使用可读性和python只提取文本,而不是HTML?

2024-06-10 11:15:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要在运行时从服务器端的随机网页中提取纯文本。我使用Google App Engine和可读性python端口。 有很多。

  1. 早期version by gfxmonk,基于美化组
  2. version by minvolai基于gfxmonk的except使用lxml而不是BeautifulSoap,使得它(根据minvolai的说法,见项目页面)更快,尽管引入了对lxml的依赖。
  3. version by Yuri Baburov aka buriy。与minvolai一样,依赖于lxml。也依赖于chardet来检测编码。

我使用尤里的版本,因为它是最新的,似乎在积极发展。 我使用Python2.7在谷歌应用引擎上运行了它。 现在的“问题”是它返回HTML,而我需要纯文本。

this Stackoverflow article about links extraction中的建议是使用BeatifulSoup。如果没有别的选择,我会的。BeatifulSoup将是另一个依赖项,因为我使用基于lxml的版本。

我的问题:

  • 有没有一种方法可以从我使用的Python可读性版本获得纯文本,而无需分叉代码?
  • 有没有一种方法可以很容易地从Python可读性的HTML结果中检索纯文本,例如使用lxml、BeatifulSoap、RegEx或其他方法
  • 如果上面的答案是否定的,或者是肯定的,但是不容易,那么修改Python可读性的方法是什么。这样的修改是否足够(对足够多的人)使这种扩展成为正式的?

Tags: 方法文本版本app网页byversionhtml