2024-06-08 22:22:43 发布
网友
我有一个1990年至2017年的农业原材料数据集,为了学习,我试图做出一些价格预测:
以下是所有列:
现在我想将数据集分为训练集和测试集,这样我就可以将一些机器学习模型应用到预测中,但是考虑到每一列都有各自的价格,并且它们彼此独立,我不清楚我的目标变量y应该是什么。如果我想进行价格预测,我应该如何分割这个数据集
正如我从你们的数据中所看到的,有几个原材料价格可供预测。考虑到这些原材料价格彼此独立,您可以创建一个仅包含一个因变量(例如Copra_价格)和其余自变量的数据集,从而从数据中删除其他与价格相关的变量。一旦您有了这个数据集,您就可以使用Copra_Price轻松地划分为训练和测试。这可以对每个价格变量重复
另一个考虑因素是,如果没有任何价格变量存在异常,那么您可以使用其中任何一个来分割数据,因为其中一个的随机选择很可能是整个组的随机选择
正如我从你们的数据中所看到的,有几个原材料价格可供预测。考虑到这些原材料价格彼此独立,您可以创建一个仅包含一个因变量(例如Copra_价格)和其余自变量的数据集,从而从数据中删除其他与价格相关的变量。一旦您有了这个数据集,您就可以使用Copra_Price轻松地划分为训练和测试。这可以对每个价格变量重复
另一个考虑因素是,如果没有任何价格变量存在异常,那么您可以使用其中任何一个来分割数据,因为其中一个的随机选择很可能是整个组的随机选择
相关问题 更多 >
编程相关推荐