我有一个类似这样的json文件
[
{"id": 1,
"properties":[{"propertyname":"propertyone",
"propertyvalye": 5},
"propertyname":"properttwo",
"propertyvalye": 7}]},
{"id": 2,
"properties":[{"propertyname":"propertyone",
"propertyvalye": 3},
"propertyname":"properttwo",
"propertyvalye": 8}]}]
我能够在databricks中加载文件并对其进行解析,得到一个名为properties的列,其中包含数据中的数组。下一步是展平此列,并为数组中的每个对象获取一列,其中包含属性名称中的名称和值。在databricks中有没有什么本地的方法可以做到这一点?你知道吗
我过去使用过的大多数json结构都是{name:value}
格式,这种格式很容易解析,但我正在处理的格式让我有些头疼。
有什么建议吗?我更喜欢使用内置功能,但是如果有办法用python实现的话,我也可以编写一个UDF
将示例数据写入存储器:
读取json数据:
结果集如下所示:
将爆炸阵列:
最后,使用pivot,可以将键值对作为列:
另请参阅本文中的示例Notebook如何在复杂数据类型上实现转换。你知道吗
相关问题 更多 >
编程相关推荐