非正态分布中因变量与自变量的相关性

2024-04-20 07:50:20 发布

您现在位置:Python中文网/ 问答频道 /正文

编辑和更新:

我正在尝试使用Python或SPSS来衡量一个或多个指标中某些因素的有效性。我的数据集包含了100个接受不同治疗时间(如三个月)的患者的记录。数据集如下所示:

     a1  a2  a3  b1  b2  b3  metric1 metric2 metric3
1    1.2 2.3 3.5 90  58  29  2.1     3.2     1.2  
2    3.2 3.4 1.5 58  54  39  3.1     4.2     3.2  
...
100  3.1 1.3 2.5 36  63  45  5.1     4.2     3.2  

如你所见,因子a(假设葡萄糖具有非正态分布)和因子b(假设一种治疗或药物具有正态分布)已经被记录了三次。在每个患者的就诊中,也记录了一个指标(例如健康指标)。现在我想知道在三次访问中,因子b是如何影响数据集中的度量的。例如,因子b与该数据集中的指标之间是否存在(co)关系?如果是的话,它的重要性在多大程度上?在

我尝试了几种方法,包括单向Annova或寻找样本均值之间的相关性,但都没有成功。我知道这些数据应该用重复测量法来分析,但是现在我有多个非正态分布的自变量,我有点困惑。我应该利用什么统计方法?在

感谢任何帮助!在


Tags: 数据方法患者a2编辑a1记录时间
1条回答
网友
1楼 · 发布于 2024-04-20 07:50:20

你现在的数据是宽格式的,我还没有用Python做过统计,但是对于R来说,大多数函数都需要长格式的数据。在

将数据帧转换为long。我想你可以用钯熔体()

df["Patient"] = df.index + 1
pd.melt(df, id_vars=["Patient"], value_vars=['b1', 'b2', 'b3'], var_name='Repeated', value_name='Glucose')

这是错误的,因为你需要对你的治疗做同样的事情,不知道怎么做两次,你可以通过分离DF然后再合并它来完成。在

您的目标数据帧应该如下所示:

^{pr2}$

相关问题 更多 >