对于bulleteddata或列出的数据，如何使用nltk语句标记器？ - 问答 - Python中文网

对于bulleteddata或列出的数据，如何使用nltk语句标记器？

2024-04-24 21:10:50 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在使用nltk语句标记器获取文件的句子。
但是当有项目符号/列出的数据时，它会非常失败。在

我使用的代码是：

dataFile = open(inputFile, 'r')
fileContent = dataFile.read()
fileContent = re.sub("\n+", " ", fileContent)
sentences = nltk.sent_tokenize(fileContent)
print(sentences)

我想让句子标记器把每个子弹作为一个句子。在

有人能帮我一下吗？谢谢！在

编辑1：
原始ppt示例：http://pastebin.com/dbwKCESg
处理的ppt数据：http://pastebin.com/0N64krKC

我将只接收处理过的数据文件，并需要在相同的句子标记。在

Tags：文件数据项目标记 com http 符号 sentences

1条回答

网友

1楼 · 发布于 2024-04-24 21:10:50

你的问题有点不清楚，但我试过你的代码，在试图解析子弹时似乎失败了。我添加了一个函数来去除不可打印的字符，并添加了一个find/replace来用句点替换换行符。我的python版本上的可打印字符串有：

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c

这段代码使用项目符号创建句子，同时仍然将句子从文本块中分离出来。如果输入文本中的句子中间有换行符，那么它将失败，而您的示例输入中没有。在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章