Python htmltotext包_程序模块 - PyPI - Python中文网

从html中提取文本和一些元信息，尽可能地处理格式错误的页面。

htmltotext的Python项目详细描述

这个包是为一个搜索引擎编写的，允许它提取 HTML页面中的文本内容和元数据。它试图应付无效的标记和错误指定的字符集，并删除 HTML标记（在标记处适当地拆分单词）。它还丢弃脚本标记和样式标记的内容。

除了页面正文中的文本，它还提取页面标题，以及元描述和关键字标记的内容。它还可以解析 meta robots标记以确定是否应为页编制索引。

此模块使用的HTML解析器是从Xapian搜索中提取的引擎库（具体地说，从OMISK索引实用程序那个图书馆）。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

热门话题: 找不到足够的连续内存会导致OOM吗？ java如何计算一个矩形可以放入另一个矩形的次数？谷歌地图api java java Autowired批注在AuthenticationSuccessHandler中返回null Java电话号码格式正则表达式 eclipse我希望能够同时选择多个复选框？Java SWT java j2objc可以用于生成不适用于iOS的目标C代码吗？使用cUrl将PHP post数组转换为java servlet java playpac4j和Play 2.5:@requireAuthentication注释导致stacktrace java为什么在Javamail中连接超时？ java使用SwingUtilities。main方法中的invokeLater（）如何在名为from Unity的Java插件中创建Android处理程序