如何为sklearn countvector设置自定义停止字？

2024-05-20 23:04:50 发布

您现在位置：Python中文网/ 问答频道 /正文

1919

网友

男 | 程序猿一只，喜欢编程写python代码。

我试图在非英语文本数据集上运行LDA（潜在的Dirichlet分配）。

在sklearn的教程中，有一部分计算要输入LDA的单词的词频：

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                            max_features=n_features,
                            stop_words='english')

它有内置的“停止词”功能，我认为它只适用于英语。我怎么能用我自己的停止语列表呢？

Tags：数据文本 df tf 教程 sklearn 单词 max

1条回答

网友

1楼 · 发布于 2024-05-20 23:04:50

您可以将自己的单词的frozenset赋给^{} argument，例如：

stop_words = frozenset(["word1", "word2","word3"])

编程相关推荐

具有较旧spring启动版本的java Maven依赖项
java如何在安卓中获取移动网络活动计划使用历史记录
java CXF抛出了所有策略替代方案都无法满足的问题
java如何创建类似ApachePOI的程序
Java Hashmap如何处理单词网格中的键冲突
java如何在多个下拉列表中搜索下一个元素
如何将css文件导入我的JavaSpringWebApp？
如何在Java中将字符串[]转换为字符串[]？
排序如何在Java中根据列的组合对spark dataframe进行排序？
java错误：无法访问com的zzbej类文件。谷歌。安卓gms。内部的没有找到zzbej

如何为sklearn countvector设置自定义停止字？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何为sklearn countvector设置自定义停止字？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >