对于bulleteddata或列出的数据,如何使用nltk语句标记器?

2024-04-24 21:10:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用nltk语句标记器获取文件的句子。
但是当有项目符号/列出的数据时,它会非常失败。在

Example text

我使用的代码是:

dataFile = open(inputFile, 'r')
fileContent = dataFile.read()
fileContent = re.sub("\n+", " ", fileContent)
sentences = nltk.sent_tokenize(fileContent)
print(sentences)

我想让句子标记器把每个子弹作为一个句子。在

有人能帮我一下吗?谢谢!在

编辑1
原始ppt示例:http://pastebin.com/dbwKCESg
处理的ppt数据:http://pastebin.com/0N64krKC

我将只接收处理过的数据文件,并需要在相同的句子标记。在


Tags: 文件数据项目标记comhttp符号sentences
1条回答
网友
1楼 · 发布于 2024-04-24 21:10:50

你的问题有点不清楚,但我试过你的代码,在试图解析子弹时似乎失败了。我添加了一个函数来去除不可打印的字符,并添加了一个find/replace来用句点替换换行符。我的python版本上的可打印字符串有:

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c

这段代码使用项目符号创建句子,同时仍然将句子从文本块中分离出来。如果输入文本中的句子中间有换行符,那么它将失败,而您的示例输入中没有。在

^{pr2}$

相关问题 更多 >