你基本上是在找TF-IDF。这里TF代表术语频率,即(Count of a term in a document)/(Total Number of terms in a document)。这将帮助您获取文档中最常用的术语。然而,在这种情况下,一些出现频率较低的术语可能对分类更为重要(或者说对分类有更多的权重)。在这种情况下,可以包括反向文档频率(IDF)。计算公式为log(Total documents/(Number of documents containing a certain term, say 'x')
你基本上是在找TF-IDF。这里TF代表术语频率,即
(Count of a term in a document)/(Total Number of terms in a document)
。这将帮助您获取文档中最常用的术语。然而,在这种情况下,一些出现频率较低的术语可能对分类更为重要(或者说对分类有更多的权重)。在这种情况下,可以包括反向文档频率(IDF)。计算公式为log(Total documents/(Number of documents containing a certain term, say 'x')
最后乘以Tf*IDF值,得到这个项的Tf-IDF。你知道吗
这里是简短的example at this link。你知道吗
这是一个example using scikit-learn
参考文献:
相关问题 更多 >
编程相关推荐