如何将Spark DataFrame转换为Pandas DataFrame?
在databricks里,我创建了一个spark数据框,现在需要把它转换成pandas数据框,
sdf = spark.sql('select * from my_tbl')
pdf = sdf.toPandas()
但出现了错误:
ArrowInvalid: Casting from timestamp[us, tz=America/New_York] to timestamp[ns] would result in out of bounds timestamp: 253402214400000000
File <command-1629564213930490>, line 1
----> 1 pdf=sdf.toPandas()
我只是想知道怎么解决这个问题,或者有没有办法直接在databricks里通过SQL生成一个pandas数据框?
1 个回答
1
你遇到的这个错误说明在时间戳转换时出现了问题。你可以试试:
df = sdf.toPandas(timestampFormat='yyyy-MM-dd HH:mm:ss.SSS')