我有一个Python脚本,它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况,我不确定是否可以用这个工具解决它。首先,句子之间偶尔会有字符。例如:
This is the first sentence. // This is the second sentence.
如果我用sent_tokenize(text)
标记,我得到This is the first sentence.
和// This is the second sentence.
,第二句话应该是This is the second sentence.
,我可以去掉斜杠,但我正在寻找工具箱已经提供的更干净的方法。也许指定句子必须以大写或任何字母开头。我不知道在标记化时是否有任何参数可以指定
工具箱可能不是我下一期的最佳工具,但有时一个句子会有一个类似的主标题。例如Words in a Title: This is my story.
当标记化应该是This is my story.
时,我可能需要用另一种方法来解决这个问题,如果有冒号的话,去掉冒号上剩下的所有东西,或者类似的东西
目前没有回答
相关问题 更多 >
编程相关推荐