从html中提取文本和一些元信息,尽可能地处理格式错误的页面。

htmltotext的Python项目详细描述


这个包是为一个搜索引擎编写的,允许它提取 HTML页面中的文本内容和元数据。它试图应付 无效的标记和错误指定的字符集,并删除 HTML标记(在标记处适当地拆分单词)。它还丢弃 脚本标记和样式标记的内容。

除了页面正文中的文本,它还提取页面标题, 以及元描述和关键字标记的内容。它还可以解析 meta robots标记以确定是否应为页编制索引。

此模块使用的HTML解析器是从Xapian搜索中提取的 引擎库(具体地说,从OMISK索引实用程序 那个图书馆)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
找不到足够的连续内存会导致OOM吗?   java如何计算一个矩形可以放入另一个矩形的次数?   谷歌地图api java   java Autowired批注在AuthenticationSuccessHandler中返回null   Java电话号码格式正则表达式   eclipse我希望能够同时选择多个复选框?Java SWT   java j2objc可以用于生成不适用于iOS的目标C代码吗?   使用cUrl将PHP post数组转换为java servlet   java playpac4j和Play 2.5:@requireAuthentication注释导致stacktrace   java为什么在Javamail中连接超时?   java使用SwingUtilities。main方法中的invokeLater()   如何在名为from Unity的Java插件中创建Android处理程序