Philipp Koehn和Josh Schroeder的启发式文本到句子拆分器
sentence-splitter的Python项目详细描述
Philipp Koehn和Josh Schroeder使用启发式算法的文本到句子拆分器。
此模块允许将文本段落拆分为句子。它基于Philipp开发的脚本 科恩和乔希·施罗德负责处理Europarl corpus。
模块是Lingua::Sentence Perl module的端口 一些额外的添加(改进了某些语言的不间断前缀列表,并增加了对丹麦语的支持, 芬兰语、立陶宛语、挪威语(博克马尔语)、罗马尼亚语和土耳其语。