20个新闻组数据集包含大约18000个新闻组帖子，而sklearn只加载了数据集的一半，这是为什么呢？ - 问答 - Python中文网

20个新闻组数据集包含大约18000个新闻组帖子，而sklearn只加载了数据集的一半，这是为什么呢？

2024-06-13 00:23:47 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

这个20 newsgroups dataset包含了大约18000个新闻组关于20个主题的帖子，分为两个子集

而sklearn只加载了大约一半的数据集

>>> from sklearn.datasets import fetch_20newsgroups
>>> newsgroups_train = fetch_20newsgroups(subset='train')
>>> newsgroups_train.filenames.shape
(11314,)

为什么sklearn只加载大约一半的数据集

Tags：数据 from import 主题 train fetch sklearn dataset

1条回答

网友

1楼 · 发布于 2024-06-13 00:23:47

您正在获取数据的train子集。数据集的另一块（test）是出于测试目的而保留的

相关问题更多 >

编程相关推荐

热门问题

热门文章