机器学习将公司名称按行业分类

2024-05-23 17:51:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我要做的是让用户输入一个公司名称,例如微软,并能够预测它是在计算机软件行业。我有大约15万个名字和60多个行业。有些公司名称不是英文公司名称。在

我尝试过使用Gensim来训练一个Word2Vec模型,只基于公司名称,并在输入SKlearn的logistic回归之前计算出单词向量的平均值,但结果很糟糕。我的问题是:

  1. 有人试过这种任务吗?google上的短文本分类向我展示了分类短句而不是纯名称的结果。如果之前有人尝试过这个方法,介意分享一些关于这个任务的关键词或研究论文吗?

  2. 如果我对每个公司都有一个简短的描述,而不是只使用他们的名字,会更好吗?这对我的Word2Vec模型有多大帮助,而不是只使用公司名称?


Tags: 用户模型名称分类公司word2vecsklearn名字
2条回答

不知道你想要什么。在

如果只是把公司的名字和音素分开来训练公司的名字。在

如果重点是使用Word2Vec,我建议为每个公司打开Wikipedia页面(比“关于我”更容易自动化)。在

对于您的问题,这只是公司与行业的关系,因此,您必须使用公司描述数据训练您的word2vec model,因为word2vec负责计算与给定的字。所以如果你训练,基于那些会给你带来负面影响的公司名称结果。如果你在描述上训练,这样你就可以得到与特定事物相关的相似词语工业。由用它你可以得到它所属的行业。在

如果你想以公司名称为基础进行培训,NER(命名实体标记)将有用。但是这是不准确的。在

相关问题 更多 >