Python NLTK标记断言

2024-04-20 15:23:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我在使用NLTK处理大约5000篇文章时遇到了一个奇怪的断言错误。我们的一些数据集没有什么大问题。然而,在极少数情况下,我会遇到:

File "/home/cp-staging/environs/cpstaging/lib/python2.5/site-packages/nltk/tag/api.py", line 51, in batch_tag
return [self.tag(sent) for sent in sentences]
File "nltk/corpus/reader/util.py", line 401, in iterate_from
File "nltk/corpus/reader/util.py", line 343, in iterate_from
AssertionError

我的代码基本上是这样工作的:

^{pr2}$

看起来nltk正在失去它在文件缓冲区中的位置,但我并不是百分之百地支持它。你知道是什么原因导致的吗?似乎和我正在处理的数据有关。也许是一些时髦的人物?在


Tags: 数据infrompytagutillinecorpus
2条回答

当一个写函数使我的语料库变空时,我也遇到了这个问题。确保我们正在读取的文件不是空的可以避免此错误。在

从解析中删除了一些空文件,问题已解决。在

相关问题 更多 >