Pyspark：将嵌套结构转换为字符串的数组

3条回答

网友
1楼 · 编辑于 2024-06-16 10:59:21

你可以试试这个：
DF = DF.withColumn('Filters', DF.Filters.cast("string"))

网友
2楼 · 编辑于 2024-06-16 10:59:21

在Pyspark中，函数to_json()完成了任务。
与简单的字符串转换相比，它还保留了“struct键”（而不仅仅是“struct值”）。因此，对于所报告的示例，我将得到如下内容：
[{"Op":"foo","Type":"bar","Val":"baz"}]
这对我更有用，因为我必须将结果写入Postgres表。在这种格式下，我可以很容易地在Postgres中使用受支持的JSON函数

网友
3楼 · 编辑于 2024-06-16 10:59:21

我创建了一个示例JSON数据集来匹配该模式：

{"ClientNum":"abc123","Filters":[{"Op":"foo","Type":"bar","Val":"baz"}]}

select(s.col("ClientNum"),s.col("Filters").cast(StringType)).show(false)

+---------+------------------------------------------------------------------+
|ClientNum|Filters                                                           |
+---------+------------------------------------------------------------------+
|abc123   |org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@60fca57e|
+---------+------------------------------------------------------------------+

最好使用explode（）函数来解决您的问题，该函数先展平一个数组，然后使用star expand表示法：

s.selectExpr("explode(Filters) AS structCol").selectExpr("structCol.*").show()
+---+----+---+
| Op|Type|Val|
+---+----+---+
|foo| bar|baz|
+---+----+---+

要使其成为由逗号分隔的单列字符串，请执行以下操作：

s.selectExpr("explode(Filters) AS structCol").select(F.expr("concat_ws(',', structCol.*)").alias("single_col")).show()
+-----------+
| single_col|
+-----------+
|foo,bar,baz|
+-----------+

分解数组引用：Flattening Rows in Spark

“struct”类型的星扩展引用：How to flatten a struct in a spark dataframe?

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark：将嵌套结构转换为字符串的数组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >