在读取json时预定义dataframe的数据类型

2条回答

网友

1楼 · 编辑于 2024-05-21 04:50:58

根据official documentation，模式可以是StructType或String

我可以给你两个建议：

1-使用虚拟文件的模式

如果您有一个具有相同模式（即一行相同结构）的light文件，则可以将其作为Dataframe读取，然后将该模式用于其他json文件：

df = spark.read.json("/path/to/dummy/file.json")
schm = df.schema
df = spark.read.json(path="abc.json", schema=schm)

2-生成模式

这一步需要您提供列名（也可以提供类型）。假设col是一个dict，其（key，value）为（column name，column type）

col_list = ['{col_name} {col_type}'.format(
    col_name=col_name,
    col_type=col_type,
) for col_name, col_type in col.items()]
schema_string = ', '.join(col_list)
df = spark.read.json(path="abc.json", schema=schema_string)

网友

2楼 · 编辑于 2024-05-21 04:50:58

您可以先读取所有数据，然后转换有问题的两列：

df = spark.read.json(path=abc.json)
df.withColumn("npi", df["npi"].cast("string"))\
  .withColumn("NCPDP", df["NCPDP"].cast("string"))

1-使用虚拟文件的模式

2-生成模式

相关问题更多 >

编程相关推荐

热门问题

热门文章

在读取json时预定义dataframe的数据类型

1-使用虚拟文件的模式

2-生成模式

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >