我正在建立一个逻辑回归分类
我从一组500000条记录开始,我只想使用其中的一个样本
你有什么建议:
1)缩放人口,然后取样
2) 缩放样本
3) 只缩放样本的X\u序列分割
为什么
我的考虑是:
1)如果样本代表人群,这可能有意义(我应该测试它吗?)
2)这是不令人信服的,因为为了查看分类器的泛化级别,我会选择几个示例,每次使用稍微不同的定标器听起来都不太好。加上它会使X\u列车,X\u测试分离产生偏差
3)这不会使X\u列车、X\u试验分离产生偏差,但对点2有相同的怀疑
你推荐什么?为什么
Tags:
好问题。几年前我刚开始工作的时候,脑子里也有类似的问题。让我试着给我的两分钱
我建议继续创建一个scaler来缩放X\u train,存储scaler并查看是否使用它来转换X\u测试。根据中心性定理,如果你做了随机抽样,你应该有一个与总体属性相似的均值和方差。在大多数情况下,定标器是基于这两个参数工作的。如果它代表总体参数,只要测试数据来自同一总体,定标器就应该工作。如果它不起作用,你需要更多的样本进行训练或另一次抽样尝试,以获得代表人口的xu训练
通过这样做,您可以确定只要模型是由相同的过程生成的,它也将在新的样本上工作。毕竟,构建模型不是为了测试,而是为了在生产中做一些有用的工作
我的建议是使用3)scaling X\u train并使用scaler转换X\u测试
相关问题 更多 >
编程相关推荐