Python将多个单词视为一个单元
有没有什么方法可以在Python中把多个词当作一个词来处理?我写了一个脚本,用来计算一堆文档中词语的Tf-Idf值。问题是,它给出的Tf-Idf值是针对单个词的。但有些情况下,我需要把多个词当作一个词来处理,比如大数据和机器学习这些词,就应该被视为一个整体,并计算它们的Tf-Idf分数。如果能提供帮助,那就太好了。
1 个回答
3
我会用scikit-learn这个工具和TfidfVectorizer这个功能来处理这个问题。调整它的一些参数基本上就能完成所有的工作。
不过,要展示它的功能,没有一个好的例子是很难的。
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = "lots of text"
vectorizer = TfidfVectorizer(ngram_range=(2,2))
result = vectorizer.fit_transform(corpus)
要知道,ngram_range
这个参数可以让你选择你感兴趣的词组,比如说二元组、三元组等等,你只需要选择一个范围就可以了。