如何使用groupby和aggregate将pyspark数据框中的行与多列连接起来

from pyspark.sql import Row l = [('Jack',"a","p"),('Jack',"b","q"),('Bell',"c","r"),('Bell',"d","s")] rdd = sc.parallelize(l) score_rdd = rdd.map(lambda x: Row(name=x[0], letters1=x[1], letters2=x[2])) score_card = sqlContext.createDataFrame(score_rdd) +----+--------+--------+ |name|letters1|letters2| +----+--------+--------+ |Jack| a| p| |Jack| b| q| |Bell| c| r| |Bell| d| s| +----+--------+--------+

1条回答

网友

1楼 · 发布于 2024-04-25 04:28:28

是的，您可以在agg函数中使用for循环并遍历df.columns。如果有帮助，请告诉我

    from pyspark.sql import functions as F
    df.show()

    # +    +    +  +
    # |letters1|letters2|name|
    # +    +    +  +
    # |       a|       p|Jack|
    # |       b|       q|Jack|
    # |       c|       r|Bell|
    # |       d|       s|Bell|
    # +    +    +  +

    df.groupBy("name").agg( *[F.array_join(F.collect_list(column), "").alias(column) for column in df.columns if column !='name' ]).show()

    # +  +    +    +
    # |name|letters1|letters2|
    # +  +    +    +
    # |Bell|      cd|      rs|
    # |Jack|      ab|      pq|
    # +  +    +    +

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用groupby和aggregate将pyspark数据框中的行与多列连接起来

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >