给定一个包含短语的数据库
示例:
检查工作是否缓慢
工作壁纸
工作需要回复通知工作组
我需要计算每个不同单词的信息增益。在
- IG('工作')
- IG('检查')
- 。。。。在
我研究了熵和信息增益的概念,但不知道如何在短语中应用。
我看到了这个链接:https://mariuszprzydatek.com/2014/10/31/measuring-entropy-data-disorder-and-information-gain/
但在我的例子中,我没有短语类别。
我需要知道哪一个词在给出短语的时候信息量最大。在
Tags:
搜索术语tf idf
阅读这个问题,你的术语文本集==文档。在
interpreting-the-sum-of-tf-idf-scores-of-words-across-documents
相关问题 更多 >
编程相关推荐