nltk中的分类需要很多时间

2024-04-18 16:43:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我在训练nltk.bayesclassifier类使用来自35000个问题的大数据集的问题。对于分类,问题应该是可哈希格式的,所以我首先标记所有单词,然后创建一个元组列表,其中第一个元素是问题(字典格式),第二个是标签。当我使用一个小的数据集时,这个程序运行得很好,但是当我使用完整的数据集时,这个程序只运行了几天。。 我认为,问题是,对于一个有35000个问题的大数据集来说,创建字典的过程花费的时间太长了。我不知道怎样才能在合理的时间内做到。你知道吗

这就是我要做的。你知道吗

  1. 把所有问题中的单词标记出来。你知道吗

allw = set(word.lower() for passage in sub for word in word_tokenize(passage[0]))

  1. 为分类器创建数据结构。你知道吗

t = [({word: (word in word_tokenize(x[0])) for word in allw}, x[1]) for x in sub]

  1. 训练分类器。你知道吗

以上3个步骤重复9次,每次使用不同的标签集,即我们对35000个问题重复9次。你知道吗


Tags: 数据in标记for字典分类器格式时间