如何获取特征预先指定的大规模语料库的tf-idf矩阵?
我有一个包含350万个文本文件的资料库。我想要构建一个大小为(3500000 * 5000)的tf-idf矩阵。在这里,我有5000个不同的特征(也就是单词)。
我在用Python的scikit
sklearn
库来实现这个目标。我使用TfidfVectorizer
来处理这些文本。我已经构建了一个大小为5000的字典(每个特征对应一个)。在初始化TfidfVectorizer
时,我把vocabulary
参数设置为这个特征字典。但是在调用fit_transform
时,它显示了一些内存映射的信息,然后出现了“核心转储”的错误。
TfidfVectorizer
在处理固定词汇和大数据集时表现好吗?- 如果不好,那还有什么其他选择呢?