我使用回归分析服务器数据,以找到功能的重要性。你知道吗
我的一些IVs(自变量)或Xs是以百分比表示的,比如时间百分比、%内核百分比、%使用的资源百分比,而另一些是以字节数等数字表示的
我用(X-X_mean)/X_stddev
标准化了所有的x。(我这样做错了吗?)你知道吗
如果我的IVs是数值和%s的混合,并且我在以下情况下预测Y,我应该在Python中使用哪个算法:
Case 1: Predict a continuous valued Y
a.Will using a Lasso regression suffice?
b. How do I interpret the X-coefficient if X is standardized and is a numeric value?
c. How do I interpret the X-coefficient if X is standardized and is a %?
Case 2: Predict a %-ed valued Y, like "% resource used".
a. Should I use Beta-Regression? If so which package in Python offers this?
b. How do I interpret the X-coefficient if X is standardized and is a numeric value?
c. How do I interpret the X-coefficient if X is standardized and is a %?
如果我在标准化已经是%的x时出错了,那么用这些数字作为0.30代表30%好吗,这样它们就在0-1的范围内了?所以这意味着我没有标准化它们,我仍然会标准化其他的数字IVs。你知道吗
Final Aim for both Cases 1 and 2:
To find the % of impact of IVs on Y. e.g.: When X1 increases by 1 unit, Y increases by 21%
我从其他帖子中了解到,我们永远无法将所有系数相加到100来评估每个静脉注射对DV的影响百分比。我希望我在这方面是正确的。你知道吗
你的问题混淆了一些概念,混淆了许多术语。本质上你在问a)线性回归的特征预处理,b)线性回归系数的可解释性,以及c)敏感性分析(特征X对Y的影响)。但是要小心,因为你正在做一个巨大的假设,Y是线性依赖于每个X\u i的,见下文。你知道吗
(X-X_mean)/X_stddev
不是标准化,而是规范化。(X-X_min)/(X_max-X_min)
,它将每个变量转换为范围[0,1];或者您可以转换为[0,1]。你知道吗sqrt(X)
、log(X)
、log1p(X)
、exp(X)
等项)。任何最能捕捉非线性关系的东西。您还可以看到变量交互项,尽管回归严格假设变量之间不相关。)(你的问题是在CrossValidated会得到更好的答案,但离开这里没关系,所以有一个交叉点)。你知道吗
对于任何形式的回归来说,混合预测值都无关紧要,这只会改变你对系数的解释。然而,重要的是Y变量的类型/分布
常规OLS回归可以很好地解决这个问题
系数的解释总是遵循这样的格式:“对于X的1个单位的变化,我们期望Y的X系数变化量,保持其他预测值不变。”
因为你已经标准化了X,你的单位是标准差。所以解释是“对于X的1标准差变化,我们期望Y的X系数变化量…”
同上。你的单位仍然是标准差,尽管它最初来自一个百分比
这很棘手。典型的建议是当你的Y结果是一个百分比时,使用类似二项逻辑回归的方法。你知道吗
与上述解释相同。但是如果你使用逻辑回归,它们是以对数几率为单位的。我建议阅读逻辑回归的相关知识,以便更深入地了解它是如何工作的
标准化对于回归中的变量是非常好的,但是就像我说的,它改变了你的解释,因为你的单位现在是一个标准差
如果你的Y是一个百分比,并且你使用类似OLS回归的方法,那么这就是你将如何解释系数的方法(对于X1中的1个单位的变化,Y会变化一些百分比)
相关问题 更多 >
编程相关推荐