我在训练nltk.bayesclassifier类使用来自35000个问题的大数据集的问题。对于分类,问题应该是可哈希格式的,所以我首先标记所有单词,然后创建一个元组列表,其中第一个元素是问题(字典格式),第二个是标签。当我使用一个小的数据集时,这个程序运行得很好,但是当我使用完整的数据集时,这个程序只运行了几天。。 我认为,问题是,对于一个有35000个问题的大数据集来说,创建字典的过程花费的时间太长了。我不知道怎样才能在合理的时间内做到。你知道吗
这就是我要做的。你知道吗
allw = set(word.lower() for passage in sub for word in word_tokenize(passage[0]))
t = [({word: (word in word_tokenize(x[0])) for word in allw}, x[1]) for x in sub]
以上3个步骤重复9次,每次使用不同的标签集,即我们对35000个问题重复9次。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐