我在使用NLTK处理大约5000篇文章时遇到了一个奇怪的断言错误。我们的一些数据集没有什么大问题。然而,在极少数情况下,我会遇到:
File "/home/cp-staging/environs/cpstaging/lib/python2.5/site-packages/nltk/tag/api.py", line 51, in batch_tag
return [self.tag(sent) for sent in sentences]
File "nltk/corpus/reader/util.py", line 401, in iterate_from
File "nltk/corpus/reader/util.py", line 343, in iterate_from
AssertionError
我的代码基本上是这样工作的:
^{pr2}$看起来nltk正在失去它在文件缓冲区中的位置,但我并不是百分之百地支持它。你知道是什么原因导致的吗?似乎和我正在处理的数据有关。也许是一些时髦的人物?在
当一个写函数使我的语料库变空时,我也遇到了这个问题。确保我们正在读取的文件不是空的可以避免此错误。在
从解析中删除了一些空文件,问题已解决。在
相关问题 更多 >
编程相关推荐