帕特西矩阵X,y分裂

2024-06-17 15:09:28 发布

您现在位置:Python中文网/ 问答频道 /正文

使用patsy.dmatrices将我的数据拆分为y、x,我将丢失观测值。例:

formula = 'target ~ v1 + v2 + v3'
y, x = patsy.dmatrices(formula, df, return_type = 'dataframe')

我的df.shape长度约为54000000,但是在x/y分割之后,我的y.shapex.shape记录了大约43000000个观察值。我已经检查了我的df.isna().sum(),现在我坐在0位。有人能解释一下发生了什么,或者这个问题的解决方法吗?我在同一个数据帧上用一个替代变量执行了拆分,例如

formula = 'target ~ v99 + v2 + v3'
y, x = patsy.dmatrices(formula, df, return_type = 'dataframe')

并且在尺寸方面没有问题


Tags: 数据targetdataframedfreturntype记录v3