2024-03-29 09:04:53 发布
网友
我不太喜欢数据挖掘,但我需要一些关于聚类的想法。让我先描述一下我的问题。在
我有大约100个包含用户评论的数据表。我试图找到一些描述质量的词。一个人可以说这是惊人的质量另一个人可以说伟大的质量现在我要把那些描述这些相似句子的文档进行聚类,并得到这些句子的频率。在这里应用什么概念?在
我想我必须指定一些停止词和同义词。我对这个概念不太熟悉。在
有人能给我一些详细的链接或解释吗?使用什么工具?我基本上是一个python程序员,所以任何python模块都会受到欢迎。在
谢谢你
我将遵循this question on CrossValidated中的主要建议。特别是看一下scikit-learn。在
以下是两篇从评价性文本中提取信息的论文。他们好像在做你想做的事。在
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.91.9534
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.77.5392&rep=rep1&type=pdf
有http://www.nltk.org/用于语言处理。有了这个库,你可以把文本分成句子,计算词频,找到同义词等等。在
Carrot^2是一个很好的用于聚类文本片段的开源项目,不幸的是它是用Java编写的。其集群背后的思想是术语和短语(双元组和三元组)的频率。在预处理之后,每个文档(片段、回顾)被表示为术语/短语频率的向量。为了计算簇,他们使用一些线性代数并在这些项空间中找到主成分。然后这些组件被用来为它们形成簇和标签。在
在yuor的例子中,值得考虑的是将评论作为文档,对其进行聚类并为集群添加标签。也许标签会以某种方式评估评论。在
在你的具体情况下,删除感兴趣的词是值得的,如此显著地降低维度,这在这类任务中是非常关键的
另一个有用的项目-montylingua
我将遵循this question on CrossValidated中的主要建议。特别是看一下scikit-learn。在
以下是两篇从评价性文本中提取信息的论文。他们好像在做你想做的事。在
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.91.9534
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.77.5392&rep=rep1&type=pdf
有http://www.nltk.org/用于语言处理。有了这个库,你可以把文本分成句子,计算词频,找到同义词等等。在
Carrot^2是一个很好的用于聚类文本片段的开源项目,不幸的是它是用Java编写的。其集群背后的思想是术语和短语(双元组和三元组)的频率。在预处理之后,每个文档(片段、回顾)被表示为术语/短语频率的向量。为了计算簇,他们使用一些线性代数并在这些项空间中找到主成分。然后这些组件被用来为它们形成簇和标签。在
在yuor的例子中,值得考虑的是将评论作为文档,对其进行聚类并为集群添加标签。也许标签会以某种方式评估评论。在
在你的具体情况下,删除感兴趣的词是值得的,如此显著地降低维度,这在这类任务中是非常关键的
另一个有用的项目-montylingua
相关问题 更多 >
编程相关推荐