基于启发式的样板删除工具

jusText的Python项目详细描述


justext

https://api.travis-ci.org/miso-belica/jusText.png?branch=master

程序justext是一个删除样板内容的工具,例如导航 HTML页面中的链接、页眉和页脚。它是 designed保存 主要是包含完整句子的文本,因此它非常适合 创建语言资源,如网络语料库。你可以 try it online

这是jusText托管的原始(当前未维护)代码的叉 关于谷歌代码。下面是我发现的一些替代方案:

安装

确保有Python2.6+/3.3+和pipWindowsLinux)已安装。 只需运行:

$ [sudo] pip install justext

依赖性

lxml>=2.2.4

使用量

$ python -m justext -s Czech -o text.txt http://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ python -m justext -s English -o plain_text.txt english_page.html
$ python -m justext --help # for more info

python api

importrequestsimportjustextresponse=requests.get("http://planet.python.org/")paragraphs=justext.justext(response.content,justext.get_stoplist("English"))forparagraphinparagraphs:ifnotparagraph.is_boilerplate:printparagraph.text

测试

通过运行测试

$ py.test-2.6 && py.test-3.3 && py.test-2.7 && py.test-3.4 && py.test-3.5

确认

这个软件是在 Masaryk University in Brno得到PRESEMTLexical Computing Ltd.它还与扬·波米克·列克的{a26}有关。

justext的更改日志

2.2.0(2016-03-06)

  • 不兼容的更改:停止字不区分大小写。
  • 不兼容的更改:放弃了对python 3.2的支持
  • bug修复:保留段落中原始文本的新行。

2.1.1(2014-05-27)

  • 错误修复:函数decode_html现在在落在default_encoding#9时尊重参数errors

2.1.0(2014-01-25)

  • feature:向paragrahs添加了xpath选择器。xpath选择器在详细输出中也可用作<p>标记#5xpath属性。

2.0.0(2013-08-26)

  • 功能:添加了可插入的dom预处理器。
  • 特性:添加了对python 3.2+的支持。
  • 不兼容的更改:段落是 justext.paragraph.Paragraph
  • 不兼容的更改:删除“justext”脚本以支持 命令python -m justext
  • 功能:可以在cli中输入uri作为输入文档。
  • 功能:可以直接传递unicode字符串。

1.2.0(2011-08-08)

  • 功能:在可能的情况下使用字符数而不是单词数 使算法在独立于语言的环境下运行良好 计数单词为的语言的模式(不带停止列表) 不容易(日语、汉语、泰语等)。
  • bug修复:对包含有关 使用字符集。
  • bug修复:更正了对html实体的解码&;128;到&;159;

1.1.0(2011-03-09)

  • 首次公开发行。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java需要设置框架。可设置大小(false)以重新绘制()   java我对PDF文件感到困惑   为什么是太阳。jvm。热点。调试器。DebuggerException:无法打开二进制文件`?   设置结果为textview时出现java空指针异常   我应该使用什么同步原语在Java中实现事件驱动程序框架?   java为什么WindowClosing处理程序在退出程序之前不执行后台任务?   如何将“20170712T18:43:04.000Z”转换为安卓或java中的相对时间?   Java,获取按键的时间长度,currentTimeMillies()始终为24   maven构建的java可执行Jar找不到logback。xml   java在其外部的函数中使用for循环中的值   java如何以表格格式将不同长度的数据对齐   java Play 2.5 WebSocket连接构建   maven而非eclipse的java强制转换问题   java如何在JFreeChart中使X轴上的值水平?   构建Java Windows应用程序以访问在线MySQL数据库需要什么   java添加构造函数会出错吗?这没有道理,请帮忙,编程问题   java在一个jframe中的两个JPanel中使用两个绘制方法   java数学或逻辑问题   java如何复制Androids库存摄像头方向更改