给定一组文本如何计算单词的信息增益?

2024-04-30 02:27:34 发布

您现在位置:Python中文网/ 问答频道 /正文

给定一个包含短语的数据库

示例:

  1. 检查工作是否缓慢

  2. 工作壁纸

  3. 工作需要回复通知工作组

我需要计算每个不同单词的信息增益。在

  1. IG('工作')
  2. IG('检查')
  3. 。。。。在

我研究了熵和信息增益的概念,但不知道如何在短语中应用。 我看到了这个链接:https://mariuszprzydatek.com/2014/10/31/measuring-entropy-data-disorder-and-information-gain/ 但在我的例子中,我没有短语类别。 我需要知道哪一个词在给出短语的时候信息量最大。在


Tags: httpscom信息数据库概念示例链接增益