为什么要使用哈希向量器进行文本聚类？

2024-04-27 20:05:28 发布

您现在位置：Python中文网/ 问答频道 /正文

998

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试对一些文本数据进行聚类，并遵循scikit-learn example进行聚类

在本例中，您可以选择使用哈希向量器，后跟TF-IDF向量器，这是默认管道：

# Perform an IDF normalization on the output of HashingVectorizer
hasher = HashingVectorizer(n_features=opts.n_features,
                           stop_words='english', alternate_sign=False,
                           norm=None)
vectorizer = make_pipeline(hasher, TfidfTransformer())

散列向量器到底做什么？我无法通过documentation或Wikipedia获得它的确切功能
使用哈希向量器进行文本聚类的优缺点是什么？在本例中，它作为一个选项提供（您也可以仅使用TF-IDF，但默认选项是使用哈希矢量器+TF-IDF）

Tags：数据文本管道 example tf 选项聚类 scikit

0条回答

目前没有回答

为什么要使用哈希向量器进行文本聚类？

相关问题更多 >

编程相关推荐

热门问题

热门文章

为什么要使用哈希向量器进行文本聚类？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >