如何在线性SVC中加入频率因子？

1条回答

网友

1楼 · 发布于 2024-05-16 09:57:15

你基本上是在找TF-IDF。这里TF代表术语频率，即(Count of a term in a document)/(Total Number of terms in a document)。这将帮助您获取文档中最常用的术语。然而，在这种情况下，一些出现频率较低的术语可能对分类更为重要（或者说对分类有更多的权重）。在这种情况下，可以包括反向文档频率（IDF）。计算公式为log(Total documents/(Number of documents containing a certain term, say 'x')

最后乘以Tf*IDF值，得到这个项的Tf-IDF。你知道吗

这里是简短的example at this link。你知道吗

这是一个example using scikit-learn

参考文献：

Text Feature Extraction
Finding Important words using TF-IDF

编程相关推荐

java通过Spring MVC web应用程序向客户端发送文本文件
java是否可以在运行时动态实例化DAO类？
调用VB。来自Java的net函数
java在Android中通过单击打开特定文件夹
java如何使用maven pom。xml标识非标准项目结构中的testng测试用例？
java为什么FOP在大文件上崩溃？
Architecture python+flask和spring boot+java
java Kafka工具根本没有启动Ubuntu 19.10
如何使用Eclipse运行Java USB API for Windows
java如何在Eclipse中查看J2EE预览服务器/容器的日志/控制台？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在线性SVC中加入频率因子？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >