Spark Arrow、toPandas()和wide变换

2024-04-28 21:43:05 发布

您现在位置:Python中文网/ 问答频道 /正文

当使用箭头优化时,toPandas()实际上做了什么?你知道吗

结果pandas数据帧对于pandas数据帧(例如.merge操作)上的广泛转换(需要数据洗牌)安全吗?团体和集体呢?我应该期望什么样的性能限制?你知道吗

我正在尽可能地将数据帧标准化,这是因为在不启动怪异的spark实例的情况下,单元测试和内存对象的可交换性非常容易。你知道吗


Tags: 数据对象实例内存pandas情况单元测试merge
1条回答
网友
1楼 · 发布于 2024-04-28 21:43:05

toPandas()获取spark dataframe对象,并将客户机驱动程序计算机上的所有分区作为spardas dataframe拉入。对这个新对象(pandas dataframe)的任何操作都将在使用python的一台机器上运行,因此不可能进行范围内的转换,因为您不再使用spark群集分布式计算(即没有分区/工作节点交互)。你知道吗

相关问题 更多 >