Python中的H2OFrame()正在向Pandas DataFrame Bug添加额外的重复行?

2024-04-26 09:24:44 发布

您现在位置:Python中文网/ 问答频道 /正文

当使用H2O.H2OFrame()函数将熊猫数据帧转换为H2O帧时,发生错误。在

在H2o框架中正在创建其他行。当我研究这个问题时,似乎新行是其他行的重复。根据数据大小,添加的重复行的数量会有所不同,但通常在2-10行左右。在

代码:

train_h2o = h2o.H2OFrame(python_obj=train_df_complete)

print(train_df_complete.shape[0])
print(train_h2o.nrow)

输出:

^{pr2}$

正如您在这里看到的,添加了两行。当进一步研究时,现在每个用户有2行,其中2个用户。一、 有两行被复制。在

这似乎是一个主要的错误,有没有人有这个问题的经验,有没有办法解决它?在

谢谢


Tags: 数据函数代码用户框架df数量错误
1条回答
网友
1楼 · 发布于 2024-04-26 09:24:44

我也有同样的问题,假设你的“train_h2o”没有重复项,只需在dataframe中标识重复项的索引并将其删除。不幸的是,h2o数据帧的功能有限。在

temp_df = train_h2o.as_data_frame()
train_h2o = train_h2o.drop(list(temp_df[temp_df.duplicated()].index), axis=0)

相关问题 更多 >