提供文本分割评估指标和实用程序的包

segeval的Python项目详细描述


https://travis-ci.org/cfournie/segmentation.evaluation.png?branch=masterhttps://coveralls.io/repos/cfournie/segmentation.evaluation/badge.png?branch=masterhttps://pypip.in/v/segeval/badge.pnghttps://pypip.in/d/segeval/badge.png

文本分割是通过在某些原子单位(如语素、单词、行、句子、段落、节等)之间设置边界,将任意数量的文本分割成段的任务。这是许多Natural Language Processing (NLP)任务中常见的预处理步骤。

这个包是一个度量集合,用于比较文本分段和评估自动文本分段器。包括新的(边界相似性分段相似性)和传统的(windowdiffpk)以及基于边界编辑距离的编码器间协议系数和混淆矩阵。

要查看其用法的一些示例,read the docs

功能支持

包括各种细分比较指标,包括:

  • 边界编辑距离(床)
  • 边界相似性(b)
  • 基于床的混淆矩阵(和精度/回忆/f1)
  • 分割相似性
  • 窗口差异
  • pk

另外,提供了适合于2个或更多编码器的基于b的用于分割的编码器间协议系数,包括:

  • 弗莱斯皮(即西格尔和卡斯特拉恩k)
  • 弗莱斯'卡帕

安装

要安装Segeval,只需运行:

$ pip install segeval

文档

文档可在http://segeval.readthedocs.org/获得。

引用segeval

如果您使用此软件进行研究,请引用ACL paper[pdf]和thesis[pdf]描述此工作的详细信息:

  • 克里斯·福尼尔。2013年。使用边界编辑距离计算文本分割。计算语言学协会第51届年会论文集。(ACL 2013),将出现。美国宾夕法尼亚州斯特劳德斯堡计算语言学协会。
  • 克里斯·福尼尔。2013年。正在评估文本分段。(硕士论文)。渥太华大学。

双唇:

@inproceedings{Fournier2013a,
        author          = {Fournier, Chris},
        year            = {2013},
        title           = {{Evaluating Text Segmentation using Boundary Edit Distance}},
        booktitle       = {Proceedings of 51st Annual Meeting of the Association for Computational Linguistics},
        publisher       = {Association for Computational Linguistics},
        location        = {Sophia, Bulgaria},
        pages           = {to appear},
        address         = {Stroudsburg, PA, USA}}

@mastersthesis{Fournier2013b,
        author          = {Fournier, Chris},
        title           = {Evaluating Text Segmentation},
        school          = {University of Ottawa},
        year            = {2013}}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java调用Python函数作为TEID中的UDF   java Android。支持v4导入不工作   java如何影响具有静态属性的类   java如何在从glTexImage2D()分配后编辑纹理的像素颜色   javaspringboot+rediscache+@Cacheable适用于某些方法,而不适用于其他方法   java无法将动态Web模块方面从3.0更改为2.5   java如何在新选项卡中显示打印的文档?   java Google Cloud Endpoints API方法仅在删除用户参数时成功调用   java为什么我可以使用Stack<Double>但不能使用Stack<Double>?   java JDBC PreparedStatement似乎忽略了占位符   java如何设置JInternalFrame的标准图标化位置?   Java文件。copy()不复制文件   基于另一个类的java显示arraylist?   java Android Studio:错误:非法字符:'\u2028'   对象(Java)无法实例化类型映像?   javascript错误:飞行前响应的HTTP状态代码401无效   java确保泛型vararg参数具有相同的类型