2024-04-30 01:44:18 发布
网友
我试图在非英语文本数据集上运行LDA(潜在的Dirichlet分配)。
在sklearn的教程中,有一部分计算要输入LDA的单词的词频:
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=n_features, stop_words='english')
它有内置的“停止词”功能,我认为它只适用于英语。我怎么能用我自己的停止语列表呢?
您可以将自己的单词的frozenset赋给^{} argument,例如:
frozenset
stop_words = frozenset(["word1", "word2","word3"])
您可以将自己的单词的} argument ,例如:
frozenset
赋给^{相关问题 更多 >
编程相关推荐