句子边界检测

splitta的Python项目详细描述


概述

请考虑以下文本:

"1月20日,美国前参议员奥巴马成为 数百万美国人参加了就职典礼。"

句点可能不明确,表示 句子,缩写,或两者兼有。句子边界检测 (sbd)任务包括消除时段的歧义,特别是, 是否将每个句点归为句末。在这个例子中, 只有美国结束时的时段才应分类为:

"1月20日,美国前参议员奥巴马成为 数百万美国人参加了就职典礼。"

如果您使用的是sbd系统,它的错误率可能是 1%-3%的英文新闻稿。这里描述的系统实现了 《华尔街日报》语料库中最著名的错误率:0.25%和 布朗语料库(混合体裁)和其他测试的可比错误率 语料库

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
.net等效于Java的Swing TableModel?   java将具有相同标记的xml结构解组到不同的字段   JavaSpringDataGemFire:自定义过期示例   设计模式质疑java中工厂函数的使用   文本区域中的swing格式。JAVA   Java:IEEE双倍于IBM浮点   java解析微数据时,我得到的是空值   java如何配置Ebean生成SQLite代码   具有复合工厂或抽象工厂的java工厂   如何使用java中的POI在excel工作表中获取小计   Java中指向整数的指针   java每次都会得到一个新的随机数[Dice Simulator]   javalucene:多线程文档复制   Java不仅使用ArrayList,还创建它(泛型)