特征提取NLP

2024-04-25 02:29:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究一个评论数据集。问题是从评论中提取特定产品的重要特性(同一特性被评审的次数)的正负特性。在

例如:some xyz car

正面:里程数大,外观好看,空间宽敞等

负面:功率差、性能差、软件问题等

事情就是从产品中提取出最好和最坏的东西!在

到目前为止,我一直在用gensim的doc2vec来找出最上面的肯定句和否定句。结果不是很好,因为它得到了结构相似的句子,而不是它所拥有的相似特征。在


Tags: 数据软件产品评论空间some特性功率
2条回答

为了识别相似的句子/短语,一些“单词移动距离”计算的报告使用评论作为数据集,似乎很好地提取了共同主题和代表性短语。在

示例见:

“通过单词移动距离导航餐厅评论中的主题” http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/

“使用Word2Vec和WMD查找类似文档” https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html

看起来你想提取产品的特性,这在你的评论中是最常见的。这是典型的主题聚类问题。您可以使用Latent Dirichlet Allocation模型来进行主题聚类。在

这种方法会给你特征,然后你可以运行情绪分析模型来了解对这个特征的积极或消极情绪。在

偶然的,如果你已经知道了这些特性,并且你想把它们组合成一些集群,那么看看这个Q&A和问题中提到的论文。在

相关问题 更多 >