我正在使用nltk语句标记器获取文件的句子。
但是当有项目符号/列出的数据时,它会非常失败。在
我使用的代码是:
dataFile = open(inputFile, 'r')
fileContent = dataFile.read()
fileContent = re.sub("\n+", " ", fileContent)
sentences = nltk.sent_tokenize(fileContent)
print(sentences)
我想让句子标记器把每个子弹作为一个句子。在
有人能帮我一下吗?谢谢!在
编辑1:
原始ppt示例:http://pastebin.com/dbwKCESg
处理的ppt数据:http://pastebin.com/0N64krKC
我将只接收处理过的数据文件,并需要在相同的句子标记。在
你的问题有点不清楚,但我试过你的代码,在试图解析子弹时似乎失败了。我添加了一个函数来去除不可打印的字符,并添加了一个find/replace来用句点替换换行符。我的python版本上的可打印字符串有:
这段代码使用项目符号创建句子,同时仍然将句子从文本块中分离出来。如果输入文本中的句子中间有换行符,那么它将失败,而您的示例输入中没有。在
^{pr2}$相关问题 更多 >
编程相关推荐