如何获取特征预先指定的大规模语料库的tf-idf矩阵?

2 投票
1 回答
1571 浏览
提问于 2025-04-18 02:22

我有一个包含350万个文本文件的资料库。我想要构建一个大小为(3500000 * 5000)的tf-idf矩阵。在这里,我有5000个不同的特征(也就是单词)。

我在用Python的scikit sklearn库来实现这个目标。我使用TfidfVectorizer来处理这些文本。我已经构建了一个大小为5000的字典(每个特征对应一个)。在初始化TfidfVectorizer时,我把vocabulary参数设置为这个特征字典。但是在调用fit_transform时,它显示了一些内存映射的信息,然后出现了“核心转储”的错误。

  1. TfidfVectorizer在处理固定词汇和大数据集时表现好吗?
  2. 如果不好,那还有什么其他选择呢?

1 个回答

0

另一个选择是gensim,它在内存使用上非常高效,而且速度也很快。这里有一个链接,是关于它的tf-idf教程,适合你的数据集。

撰写回答