使用pysp从字典列创建一个数据框架

........................................................ data ........................................................ {"name": "sam", "address":"uk"} ........................................................ {"name":"jack" , "address":"aus", "occupation":"job"} .........................................................

2条回答

网友

1楼 · 编辑于 2024-05-26 22:57:52

如果行的顺序不重要，这是另一种方法：

from pyspark import SparkContext
sc = SparkContext()

df = sc.parallelize([
    {"name":"jack" , "address":"aus", "occupation":"job"},
    {"name": "sam", "address":"uk"}     
 ]).toDF()

df = df.na.fill('')

df.show()

+   -+  +     +
|address|name|occupation|
+   -+  +     +
|    aus|jack|       job|
|     uk| sam|          |
+   -+  +     +

网友

2楼 · 编辑于 2024-05-26 22:57:52

将data转换为RDD，然后使用spark.read.json将RDD转换为具有架构的数据帧。在

data = [
    {"name": "sam", "address":"uk"}, 
    {"name":"jack" , "address":"aus", "occupation":"job"}
]

spark = SparkSession.builder.getOrCreate()
df = spark.read.json(sc.parallelize(data)).na.fill('') 
df.show()
+   -+  +     +
|address|name|occupation|
+   -+  +     +
|     uk| sam|          |
|    aus|jack|       job|
+   -+  +     +

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用pysp从字典列创建一个数据框架

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >