如何将Spark DataFrame转换为Pandas DataFrame?

0 投票
1 回答
98 浏览
提问于 2025-04-14 17:37

在databricks里,我创建了一个spark数据框,现在需要把它转换成pandas数据框,

 sdf = spark.sql('select * from my_tbl')
 pdf = sdf.toPandas() 

但出现了错误:

ArrowInvalid: Casting from timestamp[us, tz=America/New_York] to timestamp[ns] would result in out of bounds timestamp: 253402214400000000
File <command-1629564213930490>, line 1
----> 1 pdf=sdf.toPandas()

我只是想知道怎么解决这个问题,或者有没有办法直接在databricks里通过SQL生成一个pandas数据框?

1 个回答

1

你遇到的这个错误说明在时间戳转换时出现了问题。你可以试试:

df = sdf.toPandas(timestampFormat='yyyy-MM-dd HH:mm:ss.SSS')

撰写回答