更改日期以适应相关矩阵
我想创建一个相关性矩阵,以便查看我的数据集中哪些变量是有用的,因为我的数据集里有超过600个变量。
我使用了 df.corr(),但收到了一个错误信息,提示 Python 无法将字符串转换为浮点数。问题出在日期列。这个日期的格式是 YYYYmM,比如 2019m5(表示2019年5月)。我是不是只需要更改一下格式?如果是的话,我该怎么做才能让矩阵正常工作呢?
1 个回答
0
相关性只能用数字数据来进行数学计算。
如果你想进行这个计算,记得选择所有的数字数据类型,可以用下面的代码来实现:
df.select_dtypes(include='number')
我建议你先用散点图和热力图来进行数据可视化!