使用json中的嵌套数据创建一个表并将其附加到DataRicks

%python # !/usr/bin/python # -*- coding: utf-8 -*- from pyspark.sql import SparkSession from pyspark.sql.functions import * import sys import json import os import pandas as pd def create_table(): qry = """ CREATE TEMPORARY TABLE vsts USING json OPTIONS (path 'dbfs:/mnt/lake/vsts/*.json') """ return spark.sql(qry) if __name__ == "__main__": create_table()

from pyspark.sql import SparkSession from pyspark.sql.functions import * import sys import json import os def get_clear_default(): qry_default = """ select * from vsts """ return spark.sql(qry_default) def create_table(): qry = """ CREATE TABLE IF NOT EXISTS `db_sandbox`.`tst_vsts` USING JSON OPTIONS ( path 'dbfs:/mnt/lake/vsts/*.json' ) """ return spark.sql(qry) if __name__ == "__main__": create_table()

1条回答

网友

1楼 · 发布于 2024-06-13 00:21:59

我们可以试试这条路线

df=spark.read.option("multiline", "true").json("<Azure_Path>")

df.createOrReplaceTempView("test")

然后，您可以开始在Spark SQL集合中使用这个“测试”表来创建表

如果您想拆分嵌套JSON中的元素数组，请尝试POS Explode将它们反规范化到表中

        spark.sql("SELECT \
              n.pos AS position, \
              n.<unique_field> AS <unique_field>, \
              <field1>[pos] AS <field1>, \
              <field2>[pos] AS <field2>, \
              <field3>[pos] AS <field3>\
       FROM \
              test \
       LATERAL VIEW POSEXPLODE(<parent_field>.<unique_field>) n AS pos, <unique_field>").show()

相关问题更多 >

编程相关推荐

热门问题

热门文章