有没有办法使用可读性和python只提取文本，而不是HTML？ - 问答 - Python中文网

有没有办法使用可读性和python只提取文本，而不是HTML？

2024-06-10 11:15:21 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我需要在运行时从服务器端的随机网页中提取纯文本。我使用Google App Engine和可读性python端口。有很多。

早期version by gfxmonk，基于美化组
version by minvolai基于gfxmonk的except使用lxml而不是BeautifulSoap，使得它（根据minvolai的说法，见项目页面）更快，尽管引入了对lxml的依赖。
version by Yuri Baburov aka buriy。与minvolai一样，依赖于lxml。也依赖于chardet来检测编码。

我使用尤里的版本，因为它是最新的，似乎在积极发展。我使用Python2.7在谷歌应用引擎上运行了它。现在的“问题”是它返回HTML，而我需要纯文本。

在this Stackoverflow article about links extraction中的建议是使用BeatifulSoup。如果没有别的选择，我会的。BeatifulSoup将是另一个依赖项，因为我使用基于lxml的版本。

我的问题：

有没有一种方法可以从我使用的Python可读性版本获得纯文本，而无需分叉代码？
有没有一种方法可以很容易地从Python可读性的HTML结果中检索纯文本，例如使用lxml、BeatifulSoap、RegEx或其他方法
如果上面的答案是否定的，或者是肯定的，但是不容易，那么修改Python可读性的方法是什么。这样的修改是否足够（对足够多的人）使这种扩展成为正式的？

Tags：方法文本版本 app 网页 by version html

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章