了解列车试验方法 - 问答 - Python中文网

了解列车试验方法

2024-05-14 08:05:56 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在用Scikit学习教材和第2章学习机器学习，作者建议使用以下代码对训练测试中的一个特征（收入组）进行分层：

strat_train_set, strat_test_set = train_test_split(housing, 
test_size=0.2,random_state=42,stratify=housing["income_cat"])

根据我的理解，所有属性（包括目标）在train和test数据集中的表示是同等重要的。你知道吗

在上面的以下代码中，我们不能保证其他属性按照它们各自列中的比率进行拆分。不是所有的属性都应该是分层的吗？你知道吗

对吗？还是我误解了密码

谢谢

Tags：代码 test 机器属性分层 train 作者特征

1条回答

网友

1楼 · 发布于 2024-05-14 08:05:56

这是一个非常好的问题！你知道吗

据我所知，你有20%的数据作为测试数据。你知道吗

这一点很重要，因为在训练模型时，我们能够确保生成的样本中的值的比例与提供给参数分层的值的比例相同。你知道吗

例如，如果变量income_cat是一个具有值High和Low的分类变量，并且有25%的High和75%的Low，那么stratify=housing["income_cat"]将确保随机拆分有25%的High和75%的Low

希望有帮助！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章