使用数据帧的频率计数

2024-04-27 04:50:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图计算熊猫数据帧中的词频。然而,当我使用一个特定的单词(例如,labour)来查找它的使用频率时,我得到了一个不同的结果;当我尝试查找整个数据集中最频繁的单词时,我得到了相同单词的另一个单词计数总和。你知道吗

我的数据如下:

    text
0   good luck kicked first game hope get

我使用以下代码通过特定单词和单词列表查找最常用的单词:

要在数据集中查找labout这个词-

df.text.str.count("labour").sum()
741

在数据集中查找两个最常见的单词

import collections
collections.Counter(" ".join(df["text"]).split()).most_common(2)
[('labour', 650),
 ('today', 473)]

你知道为什么同一个词会有不同的结果吗?你知道吗


Tags: 数据textgamedf单词collections频率词频