用n表示python中的特例句

2024-05-23 14:52:36 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个Python脚本，它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况，我不确定是否可以用这个工具解决它。首先，句子之间偶尔会有字符。例如：

    This is the first sentence. // This is the second sentence.

如果我用sent_tokenize(text)标记，我得到This is the first sentence.和// This is the second sentence.，第二句话应该是This is the second sentence.，我可以去掉斜杠，但我正在寻找工具箱已经提供的更干净的方法。也许指定句子必须以大写或任何字母开头。我不知道在标记化时是否有任何参数可以指定

工具箱可能不是我下一期的最佳工具，但有时一个句子会有一个类似的主标题。例如Words in a Title: This is my story.当标记化应该是This is my story.时，我可能需要用另一种方法来解决这个问题，如果有冒号的话，去掉冒号上剩下的所有东西，或者类似的东西

Tags：工具 the 方法标记脚本 is my 工具箱

0条回答

目前没有回答

用n表示python中的特例句

相关问题更多 >

编程相关推荐

热门问题

热门文章

用n表示python中的特例句

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >