我想用tweeter_sample
语料库来训练nltk
,但是当我试图按类别加载示例时,出现了一个错误。在
首先我试着这样做:
from nltk.corpus import twitter_samples
documents = [(list(twitter_samples.strings(fileid)), category)
for category in twitter_samples.categories()
for fileid in twitter_samples.fileids(category)]
但它给了我一个错误:
^{pr2}$我不知道如何给他们可用的属性,以使我的清单有积极和消极的情绪。在
如果您检查
twitter_samples.fileids()
,您将看到有单独的正反文件:因此,要将tweets分类为肯定或否定,只需选择相应的文件。这不是
^{pr2}$nltk
处理分类语料库的常用方法,但是你已经有了它。在这将得到10000条tweets的数据集。第三个文件包含另外20000个,显然没有分类。在
相关问题 更多 >
编程相关推荐