提供文本分割评估指标和实用程序的包
segeval的Python项目详细描述
文本分割是通过在某些原子单位(如语素、单词、行、句子、段落、节等)之间设置边界,将任意数量的文本分割成段的任务。这是许多Natural Language Processing (NLP)任务中常见的预处理步骤。
这个包是一个度量集合,用于比较文本分段和评估自动文本分段器。包括新的(边界相似性,分段相似性)和传统的(windowdiff,pk)以及基于边界编辑距离的编码器间协议系数和混淆矩阵。
要查看其用法的一些示例,read the docs。
功能支持
包括各种细分比较指标,包括:
- 边界编辑距离(床)
- 边界相似性(b)
- 基于床的混淆矩阵(和精度/回忆/f1)
- 分割相似性
- 窗口差异
- pk
另外,提供了适合于2个或更多编码器的基于b的用于分割的编码器间协议系数,包括:
- 弗莱斯皮(即西格尔和卡斯特拉恩k)
- 弗莱斯'卡帕
安装
要安装Segeval,只需运行:
$ pip install segeval
文档
引用segeval
如果您使用此软件进行研究,请引用ACL paper[pdf]和thesis[pdf]描述此工作的详细信息:
- 克里斯·福尼尔。2013年。使用边界编辑距离计算文本分割。计算语言学协会第51届年会论文集。(ACL 2013),将出现。美国宾夕法尼亚州斯特劳德斯堡计算语言学协会。
- 克里斯·福尼尔。2013年。正在评估文本分段。(硕士论文)。渥太华大学。
双唇:
@inproceedings{Fournier2013a, author = {Fournier, Chris}, year = {2013}, title = {{Evaluating Text Segmentation using Boundary Edit Distance}}, booktitle = {Proceedings of 51st Annual Meeting of the Association for Computational Linguistics}, publisher = {Association for Computational Linguistics}, location = {Sophia, Bulgaria}, pages = {to appear}, address = {Stroudsburg, PA, USA}} @mastersthesis{Fournier2013b, author = {Fournier, Chris}, title = {Evaluating Text Segmentation}, school = {University of Ottawa}, year = {2013}}