如何为sklearn countvector设置自定义停止字?

2024-04-30 01:44:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在非英语文本数据集上运行LDA(潜在的Dirichlet分配)。

在sklearn的教程中,有一部分计算要输入LDA的单词的词频:

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                            max_features=n_features,
                            stop_words='english')

它有内置的“停止词”功能,我认为它只适用于英语。我怎么能用我自己的停止语列表呢?


Tags: 数据文本dftf教程sklearn单词max