查找给定文档中单词频率的Python脚本
我在找一个简单的脚本,可以用来计算一个文档中单词出现的频率(可能会用到一种叫做“便携式词干提取器”的工具)。
有没有什么库或者简单的脚本可以完成这个过程呢?
2 个回答
0
你应该能够计算单词的数量。可以使用 collections.Counter
或者 dict
,具体用哪个取决于你的需求。这个部分其实很简单,不过如果你觉得难,可以在StackOverflow上搜索答案。
我觉得你可能还想要使用Porter词干提取器,它在Python中有一个版本,你可以在这个链接找到:http://tartarus.org/~martin/PorterStemmer/python.txt
2
使用 nltk 这个库
import nltk
YOUR_STRING = "Your words"
words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)
tokens = freq_dist.keys()
#50 most frequent
most_frequent = tokens[:50]
#50 least frequent
least_frequent = tokens[-50:]