查找给定文档中单词频率的Python脚本

0 投票
2 回答
1427 浏览
提问于 2025-04-17 02:39

我在找一个简单的脚本,可以用来计算一个文档中单词出现的频率(可能会用到一种叫做“便携式词干提取器”的工具)。

有没有什么库或者简单的脚本可以完成这个过程呢?

2 个回答

0

你应该能够计算单词的数量。可以使用 collections.Counter 或者 dict,具体用哪个取决于你的需求。这个部分其实很简单,不过如果你觉得难,可以在StackOverflow上搜索答案。

我觉得你可能还想要使用Porter词干提取器,它在Python中有一个版本,你可以在这个链接找到:http://tartarus.org/~martin/PorterStemmer/python.txt

2

使用 nltk 这个库

import nltk

YOUR_STRING = "Your words"

words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)

tokens = freq_dist.keys()

#50 most frequent
most_frequent = tokens[:50]

#50 least frequent
least_frequent = tokens[-50:]

撰写回答