为什么要使用哈希向量器进行文本聚类?

2024-04-27 20:05:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试对一些文本数据进行聚类,并遵循scikit-learn example进行聚类

在本例中,您可以选择使用哈希向量器,后跟TF-IDF向量器,这是默认管道:

# Perform an IDF normalization on the output of HashingVectorizer
hasher = HashingVectorizer(n_features=opts.n_features,
                           stop_words='english', alternate_sign=False,
                           norm=None)
vectorizer = make_pipeline(hasher, TfidfTransformer())
  1. 散列向量器到底做什么?我无法通过documentationWikipedia获得它的确切功能
  2. 使用哈希向量器进行文本聚类的优缺点是什么?在本例中,它作为一个选项提供(您也可以仅使用TF-IDF,但默认选项是使用哈希矢量器+TF-IDF)

Tags: 数据文本管道exampletf选项聚类scikit