如何将Spark DataFrame转换为Pandas DataFrame？

0 投票

1 回答

98 浏览

提问于 2025-04-14 17:37

在databricks里，我创建了一个spark数据框，现在需要把它转换成pandas数据框，

 sdf = spark.sql('select * from my_tbl')
 pdf = sdf.toPandas()

但出现了错误：

ArrowInvalid: Casting from timestamp[us, tz=America/New_York] to timestamp[ns] would result in out of bounds timestamp: 253402214400000000
File <command-1629564213930490>, line 1
----> 1 pdf=sdf.toPandas()

我只是想知道怎么解决这个问题，或者有没有办法直接在databricks里通过SQL生成一个pandas数据框？

1 个回答

你遇到的这个错误说明在时间戳转换时出现了问题。你可以试试：

df = sdf.toPandas(timestampFormat='yyyy-MM-dd HH:mm:ss.SSS')

回答于 2025-04-14 由 Python大师

分享举报

如何将Spark DataFrame转换为Pandas DataFrame？

1 个回答

撰写回答