擅长:python、mysql、java
<p>我想你指的是以下文件:
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html" rel="nofollow noreferrer">http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html</a></p>
<p>交叉验证的目的是确保模型在一个实例中没有特别高的方差,而在另一个实例中却没有很好的拟合。这通常用于模型验证中。记住这一点,你应该通过训练集(X_train,y_train),看看你的模型表现如何。在</p>
<p>你的问题集中在:
“是否可以将<strong>整个</strong>数据集传入交叉验证?”在</p>
<p>答案是,是的。这是有条件的,基于您是否满意ML输出。例如,我有以下内容:
<a href="https://i.stack.imgur.com/NuqEi.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/NuqEi.png" alt="ROC Curve"/></a>
我用了一个随机模型和我的快乐模型。在</p>
<p>我已经准备好了。
一旦我去掉这个保留集,给我的模型一个<strong>完整的</strong>数据集,我们会得到一个更高分数的曲线图,因为我给了我的模型更多的信息(同样,你的简历分数也会更高)。在</p>
<p>调用该方法的示例如下:
<strong>概率得分=交叉得分(模型、X车、y车、cv=5)</strong></p>
<p>一般情况下,首选5倍交叉验证。
如果您希望达到5倍以上-请注意,随着“n”倍的增加,所需的计算资源数量也将增加,并且需要更长的时间来处理。在</p>