这是我通常在熊猫身上做的
cdr = datamonthly.pivot(index="msisdn", columns="last_x_month", values="arpu_sum").add_prefix('arpu_sum_l').reset_index()
但我在Pypark所做的
cdr = datamonthly.groupBy("msisdn").pivot("last_x_month").sum("arpu_sum")
我找不到add_prefix('arpu_sum_l')的替代方法。reset_index()
在执行pivot时,spark中没有类似于pandas的
add_prefix
。但是,您可以尝试一种解决方法,例如通过将自定义前缀字符串和要旋转的列的值串联起来来创建列相关问题 更多 >
编程相关推荐