使用数据帧的频率计数

2024-04-27 04:50:12 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图计算熊猫数据帧中的词频。然而，当我使用一个特定的单词（例如，labour）来查找它的使用频率时，我得到了一个不同的结果；当我尝试查找整个数据集中最频繁的单词时，我得到了相同单词的另一个单词计数总和。你知道吗

我的数据如下：

    text
0   good luck kicked first game hope get

我使用以下代码通过特定单词和单词列表查找最常用的单词：

要在数据集中查找labout这个词-

df.text.str.count("labour").sum()
741

在数据集中查找两个最常见的单词

import collections
collections.Counter(" ".join(df["text"]).split()).most_common(2)
[('labour', 650),
 ('today', 473)]

你知道为什么同一个词会有不同的结果吗？你知道吗

Tags：数据 text game df 单词 collections 频率词频

0条回答

目前没有回答