<p>好的,所以我用regex、nltk、CoreNLP详细介绍了句子标记器。你最终会自己写,这取决于你的申请。这些东西是棘手和有价值的,人们不只是把他们的标记器代码泄露出去。(归根结底,标记化不是一个确定性的过程,它是概率的,而且在很大程度上取决于你的语料库或领域,例如,社交媒体帖子vs Yelp评论vs…)</p>
<p><strong>一般来说,不能只依赖一个伟大的白色无误正则表达式,必须编写一个使用多个正则表达式(正反两种)的函数;还要编写一个缩写字典,以及一些基本的语言解析,这些函数知道英语中的“I”、“USA”、“FCC”、“TARP”是大写的。</p>
<p><strong>为了说明这很容易变得非常复杂,让我们试着编写一个确定性标记赋予器的函数规范<em>来决定是单句点还是多句点('.'/'…')表示句子结束,还是其他:</p>
<p><code>function isEndOfSentence(leftContext, rightContext)</code></p>
<ol>
<li>对于数字或货币中的小数,例如<em>1.23,$1.23,“这只是我的$0.02”</em>返回False,还要考虑1.2.3节引用,2014年7月9日的欧洲日期格式,192.168.1.1的IP地址,MAC地址。。。</li>
<li>对于已知的缩写词,返回False(不要标记成单个字母),例如“美国股市正在下跌”;这需要一个已知缩写词的字典。除非你添加代码来检测诸如A.B.C.之类的未知缩写并将其添加到列表中,否则任何超出词典范围的内容都会出错。</li>
<li>句子末尾的省略号“…”是终止符,但句子中间的省略号不是。这并不像你想象的那么简单:你需要看一下左上下文和右上下文,特别是右上下文是大写的,再考虑一下大写的单词,比如“I”和缩写。这里有一个例子证明了她的模棱两可:<em>她让我留下来。。。一小时后我离开了。(这是一句话还是两句话?无法确定)</li>
<li>您可能还需要编写一些模式来检测和拒绝标点符号的各种非句子结尾用法:表情符号:-)、ASCII艺术、空格省略号。还有其他东西,特别是推特。(使这种适应变得更加困难)。我们如何判断@midnight是Twitter用户、<a href="http://www.cc.com/shows/-midnight" rel="nofollow noreferrer">show on Comedy Central</a>、文本速记,还是不需要的/垃圾/打字标点?非常重要。</li>
<li>在你处理完所有这些否定的情况后,你可以任意地说任何一个单独的句号后面跟空白都可能是句子的结尾。(最终,如果你真的想购买额外的准确性,你最终会编写自己的使用权重的概率句子标记器,并在特定的语料库(例如,法律文本、广播媒体、StackOverflow、Twitter、论坛评论等)上对其进行训练),然后你必须手动查看示例和训练错误。参见曼宁和朱拉夫斯基的书或Coursera课程[a]。
最终你得到的正确性和你准备付出的一样多。</li>
<li>以上所有内容都明确针对英语/缩写、美国号码/时间/日期格式。如果你想让它独立于国家和语言,这是一个更大的提议,你需要语料库,说母语的人来标记和质量保证,等等</li>
<li>以上所有内容仍然只是ASCII。允许输入为Unicode,事情会变得更加困难(而且训练集必须大得多或稀疏得多)</li>
</ol>
<p>在简单的(确定性的)情况下,<code>function isEndOfSentence(leftContext, rightContext)</code>将返回布尔值,但在更一般的意义上,它是概率的:它返回一个浮点0.0-1.0(特定的“.”是一个句子结尾的置信水平)。</p>
<p>参考文献:[a]Coursera视频:“基本文本处理2-5-句子分段-斯坦福NLP-丹·朱拉夫斯基教授和克里斯·曼宁”<a href="https://www.youtube.com/watch?v=di0N3kXfGYg" rel="nofollow noreferrer">[UPDATE: an unofficial version used to be on YouTube, was taken down]</a></p>