nltk中的分类需要很多时间

2024-04-18 16:43:10 发布

男 | 程序猿一只，喜欢编程写python代码。

我在训练nltk.bayesclassifier类使用来自35000个问题的大数据集的问题。对于分类，问题应该是可哈希格式的，所以我首先标记所有单词，然后创建一个元组列表，其中第一个元素是问题（字典格式），第二个是标签。当我使用一个小的数据集时，这个程序运行得很好，但是当我使用完整的数据集时，这个程序只运行了几天。。我认为，问题是，对于一个有35000个问题的大数据集来说，创建字典的过程花费的时间太长了。我不知道怎样才能在合理的时间内做到。你知道吗

这就是我要做的。你知道吗

把所有问题中的单词标记出来。你知道吗

allw = set(word.lower() for passage in sub for word in word_tokenize(passage[0]))

为分类器创建数据结构。你知道吗

t = [({word: (word in word_tokenize(x[0])) for word in allw}, x[1]) for x in sub]

训练分类器。你知道吗

以上3个步骤重复9次，每次使用不同的标签集，即我们对35000个问题重复9次。你知道吗

Tags：数据 in 标记 for 字典分类器格式时间

0条回答

目前没有回答

nltk中的分类需要很多时间

相关问题更多 >

编程相关推荐

热门问题

热门文章

nltk中的分类需要很多时间

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >