如何使用Pyspark数据帧的模式从其创建配置单元表?

2024-04-19 01:35:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用以下代码创建了数据帧:

  import pyspark
    from pyspark.sql import functions as F

    sc = pyspark.SparkContext()
    spark = pyspark.sql.SparkSession(sc)

    data = [('A', 'B', 1), ('A', 'B', 2), ('A', 'C', 1)]
    columns = ['Column1', 'Column2', 'Column3']
    data = spark.createDataFrame(data, columns)
    data.printSchema()
 root
 |-- Column1: string (nullable = true)
 |-- Column2: string (nullable = true)
 |-- Column3: long (nullable = true)

我想在pySpark中使用pySpark数据帧的模式创建配置单元表?这里我提到了示例列,但我的数据框架中有很多列,所以有没有一种方法可以自动生成这样的查询


Tags: columns数据importtruesqldatastringspark
1条回答
网友
1楼 · 发布于 2024-04-19 01:35:14

我相信您的表创建是一次性的,在这种情况下,spark表和Hive表的数据类型可能不同

如果你有很多专栏,你能做的最好的事情就是以防万一

打印(data.schema)

这样您就可以得到所有的模式

相关问题 更多 >