我应该使用什么方法来对具有数千个类别的文本进行分类？

1条回答

网友

1楼 · 发布于 2024-05-16 10:07:42

我解决这个问题的方法是使用glove2word2vec，首先在100维向量上使用（如果这不起作用，那么使用300d向量）

对于每个单词，你都会得到唯一的分数。它还有一个API，您可以在其中找到最相似的词，如：

因此，找到目标类别中的所有名词。得到他们的分数。不要添加它们，将它们分开。假设“砾石”=0.5，“石头”=0.51，“采矿”=0.49，那么我们看到它最接近“砾石”。[我目前没有安装库]

为了减少时间，您可以单独保存分数，不要在100d/300d语料库中反复查找，这很耗时

编辑：您可以针对每个类别尝试以下操作：

from textblob import TextBlob
from itertools import product

description = [w[0].lower() for w in TextBlob("Gravel and crushed stone").tags if w[1].startswith('NN')]
category_1 = [w[0].lower() for w in TextBlob("All Other Nonmetallic Mineral Mining").tags if w[1].startswith('NN')]
max([model.similarity(w[0], w[1]) for w in product(category_1, description)])

在所有类别（1到2265）中检查每个描述。无论哪个类别给你的分数最高，都应该是最接近该描述的类别。您可以使用DataFrame.apply（）对其进行矢量化，并且可以更快地完成。如果您很幸运，并且所有描述都正确分类，那么您只需要对前10K数据点执行此操作。既然现在您有了正确的标签，您可以转而使用ML，那么就不需要这种基于规则的方法了

相关问题更多 >

编程相关推荐

热门问题

热门文章

我应该使用什么方法来对具有数千个类别的文本进行分类？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >