线性回归模型的平方是多少?

2024-05-16 14:18:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我对线性回归模型中r平方分数的定义有点困惑。 据我所知,R平方分数表示有多少因变量可以由自变量决定。然而,在scikit学习库中,我们有一个r2分数函数,它计算r平方分数,就像r2_分数一样(y_真,y_pred)。但这里的两个参数都是输出值,似乎不涉及任何独立变量。你能帮我理解这是怎么计算的吗


Tags: 函数模型参数定义线性scikit分数r2
1条回答
网友
1楼 · 发布于 2024-05-16 14:18:37

您询问了python代码x = r2_score(y_true, y_pred)

请注意:

^{tb1}$

假设你有一个青少年身高随年龄变化的模型

^{tb2}$

年龄是指出生后的年数(而不是像在中国那样怀孕后的年数)。
此外,我们将年龄四舍五入到最接近的全年。 岁的儿童被列为10

预测值的一个例子可能是,你认为10岁的孩子平均55英寸高

如果你进行一项研究,测量每10岁1038名儿童的身高,你会发现这些儿童的身高并不都是55英寸

原始数据(测量的儿童身高)称为一组y值

统计学家通常通过比较儿童测量身高与预测身高之间的距离来测量误差

例如,10岁的乔安娜身高52英寸(四舍五入到最接近的整英寸)。
我们预测乔安娜的身高为55英寸。
真实值和预测值之间相差3英寸

通常情况下,统计学家希望一个数据集有一个数字,而不是1038个不同的数字

您可以做的一件事是将孩子们的预测身高和实际身高之间的差值转换为正数。例如,-5变为+5

然后,计算实际高度和预测高度之间的平均正差值(英寸)

采取绝对差异是很重要的。有些孩子比预期的矮(-2英寸),有些孩子更高(+7英寸)

如果允许负数,则平均高度和实际高度之间的平均差将始终为零

  1. 以1038实际高度为例
  2. 从实际高度减去55英寸
  3. 汇总高度差异,但不转换为正数
  4. 结果总是零

事实上,定义平均值的一种方法是,数字序列的平均值是一个数x,这样当您计算每个数据点和x之间的差,然后对结果求和时,答案是零

一般来说,统计学家会消除差异。 由于乔安娜很矮(-2英寸),乔安娜的平方误差是+4英寸

负数乘以负数总是正数

平方运算消除了负符号。 取绝对值可以去掉负号。 事实上有大约一百万种方法可以消除负面的迹象

一些统计学家的观点就像1998年电影《保利》中的鹦鹉。
我说“塔可”,他们说“塔可!塔可!塔可!”
他们照搬其他统计学家的做法,他们从来没有想到有不止一种方法可以进行统计分析

我有一个数学学位,我看到过这样的证明:使均方误差最小的曲线在某些方面是理想的

然而,均方误差更多的是一种启发,或代理,而不是衡量真正重要的东西

事实上,没有人有一个公式可以完美地计算数据集a和数据集B,这两个数据集比另一个数据集更“分散”

很难说人类关心什么

不管怎样,均方误差总比没有好。它测量数据集的分布情况。A

数据点是否离平均值很远,或者都非常接近平均值

如果10岁儿童的真实平均身高是55英寸会怎么样? 再想象一下“如果”的真实标准偏差是4英寸

在这个想象的世界里,假设你随机抽取了1038名儿童,每个10岁

您的样本方差(根据实验数据计算)为7.1091英寸

1038名儿童的样本方差为7.1091英寸或更大的可能性是多少

如果您的模型是正确的,那么数据与您观察到的模型预测的距离一样远或更远的可能性是多少

如果您看到的数据与预测值相差很远,则您的模型可能不好

无论如何,R平方度量是:

  • 如果数据与模型完全不匹配,则为0%
  • 如果数据和预测之间的差异由随机机会充分解释,则为100%

例如,如果你掷一枚公平的硬币1000次,那么491个结果将是正面,而不是500个“正面”

问题是,观察到的值(1000次投掷中有491次头部)是可能的,还是非常奇怪,因为模型说它应该是1000次投掷中的500次

相关问题 更多 >