在pyspark数据帧中添加前缀并重置索引

2024-05-14 14:21:59 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我通常在熊猫身上做的

cdr = datamonthly.pivot(index="msisdn", columns="last_x_month", values="arpu_sum").add_prefix('arpu_sum_l').reset_index()

但我在Pypark所做的

cdr = datamonthly.groupBy("msisdn").pivot("last_x_month").sum("arpu_sum")

我找不到add_prefix('arpu_sum_l')的替代方法。reset_index()


Tags: columnsaddprefixindexlastpivotresetvalues
1条回答
网友
1楼 · 发布于 2024-05-14 14:21:59

在执行pivot时,spark中没有类似于pandas的add_prefix。但是,您可以尝试一种解决方法,例如通过将自定义前缀字符串和要旋转的列的值串联起来来创建列

import pyspark.sql.functions as F

cdr = datamonthly.withColumn("p", F.expr("concat('arpu_sum_l_', last_x_month)")).groupBy("msisdn").pivot("p").sum("arpu_sum")

相关问题 更多 >

    热门问题