如何在pyspark中创建包含两个数据帧列的字典？

df = spark.createDataFrame([('A', 'Science'), ('A', 'Math'), ('A', 'Physics'), ('B', 'Science'), ('B', 'English'), ('C', 'Math'), ('C', 'English'), ('C', 'Latin')], ['Group', 'Subjects']) Group Subjects A Science A Math A Physics B Science B English C Math C English C Latin

2条回答

网友

1楼 · 编辑于 2024-05-28 19:06:25

检查一下：您可以执行groupBy并使用collect_list

    #Input DF
    # +  -+   -+
    # |group|subject|
    # +  -+   -+
    # |    A|   Math|
    # |    A|Physics|
    # |    B|Science|
    # +  -+   -+

    df1 = df.groupBy("group").agg(F.collect_list("subject").alias("subject")).orderBy("group")

    df1.show(truncate=False)

    # +  -+       -+
    # |group|subject        |
    # +  -+       -+
    # |A    |[Math, Physics]|
    # |B    |[Science]      |
    # +  -+       -+

    dict = {row['group']:row['subject'] for row in df1.collect()}

    print(dict)

    # {'A': ['Math', 'Physics'], 'B': ['Science']}

网友

2楼 · 编辑于 2024-05-28 19:06:25

如果您需要唯一的主题，则可以使用collect_set，否则请使用collect_list

import pyspark.sql.functions as F
 df = spark.createDataFrame([('A', 'Science'),
 ('A', 'Math'),
 ('A', 'Physics'),
 ('B', 'Science'),
 ('B', 'English'),
 ('C', 'Math'),
 ('C', 'English'),
 ('C', 'Latin')],
 ['Group', 'Subjects'])
 
 df_tst=df.groupby('Group').agg(F.collect_set("Subjects").alias('Subjects')).withColumn("dict",F.create_map('Group',"Subjects"))

结果:

+  -+            +               -+
|Group|Subjects                |dict                           |
+  -+            +               -+
|C    |[Math, Latin, English]  |[C -> [Math, Latin, English]]  |
|B    |[Science, English]      |[B -> [Science, English]]      |
|A    |[Math, Physics, Science]|[A -> [Math, Physics, Science]]|
+  -+            +               -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark中创建包含两个数据帧列的字典？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >