用Databricks中每个对象的列将json对象列表展平到表中

[ {"id": 1, "properties":[{"propertyname":"propertyone", "propertyvalye": 5}, "propertyname":"properttwo", "propertyvalye": 7}]}, {"id": 2, "properties":[{"propertyname":"propertyone", "propertyvalye": 3}, "propertyname":"properttwo", "propertyvalye": 8}]}]

1条回答

网友

1楼 · 发布于 2024-06-16 09:48:55

将示例数据写入存储器：

data = """
{"id": 1, "properties":[{"propertyname":"propertyone","propertyvalue": 5},{"propertyname":"propertytwo","propertyvalue": 7}]},
{"id": 2, "properties":[{"propertyname":"propertyone","propertyvalue": 3}, 
{"propertyname":"propertytwo","propertyvalue": 8}]}
 """

dbutils.fs.put(inputpath + "/x.json", data, True)

读取json数据：

df = spark.read.format("json").load(inputpath)

结果集如下所示：

    dfe = df.select("id", explode("properties").alias("p")) \
        .select("id", "p.propertyname", "p.propertyvalue")

将爆炸阵列：

最后，使用pivot，可以将键值对作为列：

display (dfe.groupby('id').pivot('propertyname').agg({'propertyvalue': 'first'}))

另请参阅本文中的示例Notebook如何在复杂数据类型上实现转换。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

用Databricks中每个对象的列将json对象列表展平到表中

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >