Pyspark拆分string类型的spark数据帧

df = spark \ .read \ .format("kafka") \ .option("kafka.bootstrap.servers", KAFKA_BOOTSTRAP_SERVERS_CONS) \ .option("subscribe", KAFKA_TOPIC_NAME_CONS) \ .option("startingOffsets", "earliest") \ .load() df2=df.selectExpr("CAST(value AS STRING)") df2.printSchema()

+-------------------+-----+ |value |Name3| +-------------------+-----+ |"1,Visa,6574" |6574"| |"3,Visa,6574" |6574"| |"4,MasterCard,6574"|6574"| |"5,MasterCard,6574"|6574"| |"8,Maestro,8372" |8372"| +-------------------+-----+

+-------------------+----------+------+ |Name1 |Name2 |Name3 | +-------------------+----------+------+ | 1 |Visa |6574 | | 3 |Visa |6574 | | 4 |MasterCard|6574 | | 5 |MasterCard|6574 | | 8 |Maestro |8372 | +-------------------+----------+------+

1条回答

网友

1楼 · 发布于 2024-05-29 11:11:53

你的解决方案很好。唯一的问题是在执行拆分并用于下一步之后df2和df3的赋值。在执行第一次拆分后，您将分配给df3，但对于后续拆分，您仅使用df2。因此，spark只对第三个split语句求值。你知道吗

解决方案是在最后一次拆分之前不要赋给新变量

df3 = df2.withColumn('Name1', f.split('value', ',').getItem(0)).\
                 withColumn('Name2', f.split('value', ',').getItem(1)).\
                 withColumn('Name3', f.split('value', ',').getItem(2))

df3.show()
+        -+  -+     +  -+
|            value|Name1|     Name2|Name3|
+        -+  -+     +  -+
|      1,Visa,6574|    1|      Visa| 6574|
|      3,Visa,6574|    3|      Visa| 6574|
|4,MasterCard,6574|    4|MasterCard| 6574|
|5,MasterCard,6574|    5|MasterCard| 6574|
|   8,Maestro,8372|    8|   Maestro| 8372|
+        -+  -+     +  -+

或者在下一次拆分中使用指定的变量（除非必要，否则不鼓励使用这种方式）

df3 = df2.withColumn('Name1', f.split('value', ',').getItem(0))

df3 = df3.withColumn('Name2', f.split('value', ',').getItem(1))

df3 = df3.withColumn('Name3', f.split('value', ',').getItem(2))

df3.show()
+        -+  -+     +  -+
|            value|Name1|     Name2|Name3|
+        -+  -+     +  -+
|      1,Visa,6574|    1|      Visa| 6574|
|      3,Visa,6574|    3|      Visa| 6574|
|4,MasterCard,6574|    4|MasterCard| 6574|
|5,MasterCard,6574|    5|MasterCard| 6574|
|   8,Maestro,8372|    8|   Maestro| 8372|
+        -+  -+     +  -+

相关问题更多 >

编程相关推荐

热门问题

热门文章