从html中提取文本和一些元信息,尽可能地处理格式错误的页面。
htmltotext的Python项目详细描述
这个包是为一个搜索引擎编写的,允许它提取 HTML页面中的文本内容和元数据。它试图应付 无效的标记和错误指定的字符集,并删除 HTML标记(在标记处适当地拆分单词)。它还丢弃 脚本标记和样式标记的内容。
除了页面正文中的文本,它还提取页面标题, 以及元描述和关键字标记的内容。它还可以解析 meta robots标记以确定是否应为页编制索引。
此模块使用的HTML解析器是从Xapian搜索中提取的 引擎库(具体地说,从OMISK索引实用程序 那个图书馆)。