我试图计算熊猫数据帧中的词频。然而,当我使用一个特定的单词(例如,labour)来查找它的使用频率时,我得到了一个不同的结果;当我尝试查找整个数据集中最频繁的单词时,我得到了相同单词的另一个单词计数总和。你知道吗
我的数据如下:
text
0 good luck kicked first game hope get
我使用以下代码通过特定单词和单词列表查找最常用的单词:
要在数据集中查找labout这个词-
df.text.str.count("labour").sum()
741
在数据集中查找两个最常见的单词
import collections
collections.Counter(" ".join(df["text"]).split()).most_common(2)
[('labour', 650),
('today', 473)]
你知道为什么同一个词会有不同的结果吗?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐