我有两组数据都是从不同的来源汇编的。这两组数据都包含出现频率较高的单词。我想检查两个数据集中是否都存在某个词,如果存在,是否有可能进行某种统计意义的检验,以证明该词是有意义的。你知道吗
For example:
word = 'apple'
dict1 = {'oranges': 45, 'apple': 34,...., 'x': y}
dict2 = {'apple': 165, 'orange': 12,...., 'x': y}
如果单词“apple”同时出现在两个数据集中(dict1和dict2),则计算单词apple的显著性检验。你知道吗
获取两个来源中出现的单词非常容易:
将dict传递给
set
会创建一组字典的键,然后&
就是set intersection操作符。你知道吗我们可以做的最简单的统计显著性检验是卡方检验,使用一个虚拟变量来比较每个共同单词的“一对所有”计数。您可以在
scipy
中使用实现。把它们放在一起,你可以这样做:它会给你这样的输出:
相关问题 更多 >
编程相关推荐