Python将多个单词视为一个单元

1 投票
1 回答
779 浏览
提问于 2025-04-18 05:47

有没有什么方法可以在Python中把多个词当作一个词来处理?我写了一个脚本,用来计算一堆文档中词语的Tf-Idf值。问题是,它给出的Tf-Idf值是针对单个词的。但有些情况下,我需要把多个词当作一个词来处理,比如大数据机器学习这些词,就应该被视为一个整体,并计算它们的Tf-Idf分数。如果能提供帮助,那就太好了。

1 个回答

3

我会用scikit-learn这个工具和TfidfVectorizer这个功能来处理这个问题。调整它的一些参数基本上就能完成所有的工作。

不过,要展示它的功能,没有一个好的例子是很难的。

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = "lots of text"    
vectorizer = TfidfVectorizer(ngram_range=(2,2))
result = vectorizer.fit_transform(corpus)

要知道,ngram_range这个参数可以让你选择你感兴趣的词组,比如说二元组、三元组等等,你只需要选择一个范围就可以了。

撰写回答