我有一个由1800000行和45列组成的数据集 我尝试执行的操作是按一列分组,即其他列的总和
我做的第一步是将data_df作为我的数据框,所有列都是数字
columns= data_df.column_names
df_result = df.groupby(columns,agg='sum')
我尝试过的另一种方法
df=None
for col in colm:
print("the col is ",col)
if df is None:
df= data_df.groupby(data_df.MSISDN, agg=[vaex.agg.sum(col)])
else:
dfTemp= data_df.groupby(data_df.MSISDN, agg=[vaex.agg.sum(col)])
df =df.join(dfTemp,left_on="MSISDN",right_on ="MSISDN",how ="inner",allow_duplication=True)
del dfTemp
在这里,我可以找到总计11列的总和,然后内核重新启动 使用vaex或pandas还有其他方法获得结果吗
目前没有回答
相关问题 更多 >
编程相关推荐