20个新闻组数据集包含大约18000个新闻组帖子,而sklearn只加载了数据集的一半,这是为什么呢?

2024-06-13 00:23:47 发布

您现在位置:Python中文网/ 问答频道 /正文

这个20 newsgroups dataset包含了大约18000个新闻组关于20个主题的帖子,分为两个子集

而sklearn只加载了大约一半的数据集

>>> from sklearn.datasets import fetch_20newsgroups
>>> newsgroups_train = fetch_20newsgroups(subset='train')
>>> newsgroups_train.filenames.shape
(11314,)

为什么sklearn只加载大约一半的数据集


Tags: 数据fromimport主题trainfetchsklearndataset