使用总体样本的分类器:缩放总体,然后采样/缩放样本/缩放样本的X\u序列分割?

2024-05-14 00:56:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在建立一个逻辑回归分类

我从一组500000条记录开始,我只想使用其中的一个样本

你有什么建议:

1)缩放人口,然后取样 2) 缩放样本 3) 只缩放样本的X\u序列分割

为什么

我的考虑是:

1)如果样本代表人群,这可能有意义(我应该测试它吗?)

2)这是不令人信服的,因为为了查看分类器的泛化级别,我会选择几个示例,每次使用稍微不同的定标器听起来都不太好。加上它会使X\u列车,X\u测试分离产生偏差

3)这不会使X\u列车、X\u试验分离产生偏差,但对点2有相同的怀疑

你推荐什么?为什么


Tags: 分类器记录分类代表序列逻辑级别建议
1条回答
网友
1楼 · 发布于 2024-05-14 00:56:14

好问题。几年前我刚开始工作的时候,脑子里也有类似的问题。让我试着给我的两分钱

我建议继续创建一个scaler来缩放X\u train,存储scaler并查看是否使用它来转换X\u测试。根据中心性定理,如果你做了随机抽样,你应该有一个与总体属性相似的均值和方差。在大多数情况下,定标器是基于这两个参数工作的。如果它代表总体参数,只要测试数据来自同一总体,定标器就应该工作。如果它不起作用,你需要更多的样本进行训练或另一次抽样尝试,以获得代表人口的xu训练

通过这样做,您可以确定只要模型是由相同的过程生成的,它也将在新的样本上工作。毕竟,构建模型不是为了测试,而是为了在生产中做一些有用的工作

我的建议是使用3)scaling X\u train并使用scaler转换X\u测试

相关问题 更多 >