用n表示python中的特例句

2024-05-23 14:52:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个Python脚本,它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况,我不确定是否可以用这个工具解决它。首先,句子之间偶尔会有字符。例如:

    This is the first sentence. // This is the second sentence.

如果我用sent_tokenize(text)标记,我得到This is the first sentence.// This is the second sentence.,第二句话应该是This is the second sentence.,我可以去掉斜杠,但我正在寻找工具箱已经提供的更干净的方法。也许指定句子必须以大写或任何字母开头。我不知道在标记化时是否有任何参数可以指定

工具箱可能不是我下一期的最佳工具,但有时一个句子会有一个类似的主标题。例如Words in a Title: This is my story.当标记化应该是This is my story.时,我可能需要用另一种方法来解决这个问题,如果有冒号的话,去掉冒号上剩下的所有东西,或者类似的东西


Tags: 工具the方法标记脚本ismy工具箱