我正在完成一项工作,我试图检查一些信息之间的相关性。在
基本上,我有来自事故幸存者的数据,我想知道其他信息与他们的生存能力之间的关系。在
所以,我有主数据框和所有信息,然后:
#creating a df to list who not survived(0) and another df to list who survived(1)
Input: df_s0 = df.query("Survived == 0")
df_s1 = df.query("Survived == 1")
Input: df_s0.corr()
Tags:
根据相关公式:
如果a或b都是常数(零方差),则不定义这两者之间的相关性(除以零产生nan)。 在您的示例中,
df_s0
的Survived
列是常量(全为零),因此未定义此列与其他列的相关性。在如果你想弄清楚一个离散变量(幸存的)和你的其他特征之间的关系,你可以查看你的特征在存活0和1的不同组中的方框图(以便能够比较不同的统计数据,如平均值、IQR…)。如果你想更进一步,你可以使用方差分析来根据不同组内和不同组之间的差异来描述你的特征的重要性!在
相关问题 更多 >
编程相关推荐