如何在线性SVC中加入频率因子?

2024-05-16 09:57:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用线性svc(sciketlearn)来分类新闻类别,比如体育、健康、世界、科技、生活方式。对于给定的文本,假设它有: 1) 出现5次word windows和3次word machine它没有分类到技术中,但如果我使用相同的文本并将windows的出现次数增加到12次,machine的出现次数增加到10次,它就会被分类到技术中。你知道吗

那么,在线性svc中,有没有一种方法可以提高类中任何相关词的重要性呢?你知道吗


Tags: 文本windows方式世界分类线性machine类别
1条回答
网友
1楼 · 发布于 2024-05-16 09:57:15

你基本上是在找TF-IDF。这里TF代表术语频率,即(Count of a term in a document)/(Total Number of terms in a document)。这将帮助您获取文档中最常用的术语。然而,在这种情况下,一些出现频率较低的术语可能对分类更为重要(或者说对分类有更多的权重)。在这种情况下,可以包括反向文档频率(IDF)。计算公式为log(Total documents/(Number of documents containing a certain term, say 'x')

最后乘以Tf*IDF值,得到这个项的Tf-IDF。你知道吗

这里是简短的example at this link。你知道吗

这是一个example using scikit-learn

参考文献:

相关问题 更多 >