TPOT训练时间太长

2024-06-10 20:26:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我第一次尝试在一个大约有7000行的数据集上使用tpot,当尝试在占整个数据集25%的训练数据集上训练tpot时,tpot花费的时间太长。我已经在google colab上运行了大约45分钟的代码,优化进度仍然是4%。我刚刚试着用上面的例子:http://epistasislab.github.io/tpot/examples/。tpot通常需要这么长时间,因为到目前为止,我认为它甚至不值得尝试使用


Tags: 数据代码iogithubhttpgoogle时间examples
1条回答
网友
1楼 · 发布于 2024-06-10 20:26:04

TPOT可能需要相当长的时间,具体取决于您拥有的数据集。你必须考虑TPOT正在做什么:TPOT正在评估数千条分析管道并在后台的数据集上装配数千个ML模型,如果你有一个大的数据集,那么所有的拟合都需要很长的时间,特别是如果你在一个功能不太强大的计算机上运行它。p>

如果您想要更快的结果,您有几个选项:

  1. 使用"TPOT light" configuration,它使用更简单的模型,运行速度更快

  2. n_jobs参数设置为-1或大于1的数字,这将允许TPOT并行计算管道-1将使用所有可用的内核,如果您有一台多核机器,那么速度将大大加快

  3. 使用subsample参数对数据进行子采样。默认值为1.0,对应于使用100%的培训数据。您可以进行子采样以降低数据百分比,TPOT将运行得更快

相关问题 更多 >