使用Word2Vec进行文本分类

2024-04-29 23:05:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我很难理解Word2Vec。我需要根据用户在帮助台系统中的投诉进行帮助台文本分类。每个句子都有自己的类别

我在网上看到过一些经过预培训的word2vec文件,但我不知道这是否是最好的工作方式,因为我的问题非常具体。我的数据集是葡萄牙语的

我正在考虑,我将不得不创建自己的模型,我不知道如何做到这一点。我是否必须使用与我的句子和课堂数据集相同的单词

在第一行中,列标题。在第一行下面,我有句子和课堂。有人能帮我吗?我看到Gensin创建了向量模型,听起来不错。但是我完全迷路了

: chamado,classe 'Prezados não estou conseguindo gerar uma nota fiscal do módulo de estoque e custos.','ERP GESTÃO', 'Não consigo acessar o ERP com meu usuário e senha.','ERP GESTÃO', 'Médico não consegue gerar receituário no módulo de Medicina e segurança do trabalho.','ERP GESTÃO', 'O produto 4589658 tinta holográfica não está disponível no EIC e não consigo gerar a PO.','ERP GESTÃO',


Tags: 数据no用户模型erpdeword2vecdo
1条回答
网友
1楼 · 发布于 2024-04-29 23:05:32

您的查询非常一般,通常情况下,StackOverflow会在您尝试了特定的事情并遇到特定的问题时提供更大的帮助,这样您就可以提供确切的代码、错误或不足之处

但总的来说:

  • 您可能根本不需要word2vec:有许多文本分类方法,如果有足够的培训数据,可以将您的文本分配给有用的类,而不使用WordVector。你可能想尝试那些,然后考虑词向量作为一个后来的改进。

  • 为了让单词向量有帮助,它们需要基于您的实际语言,最好是您的特定关注领域。来自新闻文章甚至维基百科的通用词向量可能不包括你的问题的重要行话和词义。但训练你自己的词向量并不难——你只需要大量不同的、相关的文本,在现实的、相关的上下文中使用这些词。是的,你最好在你最终想要分类的文本上训练你的词向量

但最重要的是,如果您“完全迷路了”,请从更简单的文本分类示例开始。当您使用Python时,基于scikit learn的示例可能是最相关的。使其适应您的数据&;目标,使自己熟悉所有步骤&;评估您的更改是否改善最终结果的方法。然后研究诸如词向量之类的技术

相关问题 更多 >