特征提取NLP - 问答 - Python中文网

特征提取NLP

2024-04-25 02:29:24 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在研究一个评论数据集。问题是从评论中提取特定产品的重要特性（同一特性被评审的次数）的正负特性。在

例如：some xyz car

正面：里程数大，外观好看，空间宽敞等

负面：功率差、性能差、软件问题等

事情就是从产品中提取出最好和最坏的东西！在

到目前为止，我一直在用gensim的doc2vec来找出最上面的肯定句和否定句。结果不是很好，因为它得到了结构相似的句子，而不是它所拥有的相似特征。在

Tags：数据软件产品评论空间 some 特性功率

2条回答

网友

1楼 · 编辑于 2024-04-25 02:29:24

为了识别相似的句子/短语，一些“单词移动距离”计算的报告使用评论作为数据集，似乎很好地提取了共同主题和代表性短语。在

示例见：

“通过单词移动距离导航餐厅评论中的主题” http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/

“使用Word2Vec和WMD查找类似文档” https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html

网友

2楼 · 编辑于 2024-04-25 02:29:24

看起来你想提取产品的特性，这在你的评论中是最常见的。这是典型的主题聚类问题。您可以使用Latent Dirichlet Allocation模型来进行主题聚类。在

这种方法会给你特征，然后你可以运行情绪分析模型来了解对这个特征的积极或消极情绪。在

偶然的，如果你已经知道了这些特性，并且你想把它们组合成一些集群，那么看看这个Q&A和问题中提到的论文。在

相关问题更多 >

编程相关推荐

热门问题

热门文章