这个20 newsgroups dataset包含了大约18000个新闻组关于20个主题的帖子,分为两个子集
而sklearn只加载了大约一半的数据集
>>> from sklearn.datasets import fetch_20newsgroups
>>> newsgroups_train = fetch_20newsgroups(subset='train')
>>> newsgroups_train.filenames.shape
(11314,)
为什么sklearn只加载大约一半的数据集
Tags:
您正在获取数据的
train
子集。数据集的另一块(test
)是出于测试目的而保留的相关问题 更多 >
编程相关推荐