大Pandas中的独特词语及其计数

2024-04-23 10:08:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我刚开始学习熊猫,我想知道你是否可以把文本放到数据框中得到结果。我有一个3000字左右的文字信息,有些字重复了很多次,“太阳”“月亮”“地球”。我想生成一个图表,显示从最频繁到最少出现的单词数。对于这样的任务,我应该集中学习熊猫的哪些方面?熊猫是不是最好的选择?你知道吗


Tags: 数据文本信息地球图表单词文字月亮
2条回答

如果您只是想显示单词的频率,可以使用以下方法:

 df['column_with_words'].hist()

但那可能不会给你想要的。最好研究一些文本分析包,比如nltk。你知道吗

同意马克斯的意见,你的问题太宽泛了。然而,您要做的是tokenizing文本并计算每个标记的频率。这可以类似于this question。下面是一个实现:

import nltk

with open ("input.txt", "r") as myfile:
    data=myfile.read().replace('\n', ' ')

data = data.split(' ')
fdist1 = nltk.FreqDist(data)
print(fdist1)

相关问题 更多 >