Python中的停用词去除与词干提取
我有一份比较大的文档,想用Python对文档中的单词进行去除常用词和词干提取。有没有现成的工具包可以用?如果没有,能不能提供一个对大文档处理速度够快的代码?谢谢!
2 个回答
4
如果你出于某种原因不想使用NLTK这个工具,可以试试PyStemmer。至于停用词,你只需要下载一份列表(可以在网上搜索一下),然后把这些词过滤掉就行了。
8
NLTK 是支持这个功能的。