vaex groupby agg较大数据集所有列的总和

2024-05-14 23:50:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个由1800000行和45列组成的数据集 我尝试执行的操作是按一列分组,即其他列的总和

我做的第一步是将data_df作为我的数据框,所有列都是数字

columns= data_df.column_names
df_result = df.groupby(columns,agg='sum')

结果是内核重新启动 系统的RAM为32 GB enter image description here

我尝试过的另一种方法

df=None
for col in colm:
    print("the col is ",col)
    
    if df is None:  
        df= data_df.groupby(data_df.MSISDN, agg=[vaex.agg.sum(col)])
    else:
        dfTemp= data_df.groupby(data_df.MSISDN, agg=[vaex.agg.sum(col)])
        df =df.join(dfTemp,left_on="MSISDN",right_on ="MSISDN",how ="inner",allow_duplication=True)
        del dfTemp

在这里,我可以找到总计11列的总和,然后内核重新启动 使用vaex或pandas还有其他方法获得结果吗


Tags: columns数据方法nonedfdatacol内核

热门问题