如何将表直接导入DataRicks中的Python数据帧？

2条回答

网友

1楼 · 编辑于 2024-05-16 23:16:57

在这种情况下，必须使用pd.read_sql_query

网友

2楼 · 编辑于 2024-05-16 23:16:57

你的假设很可能是不真实的

Spark是一个分布式计算引擎，pandas是一个单节点工具集。因此，当您在数百万行上运行查询时，很可能会失败。在执行df.toPandas时，Spark会将所有数据移动到驱动程序节点，因此，如果数据超过驱动程序内存，则会出现内存不足异常。换句话说，如果您的数据集比内存大，那么pandas将无法正常工作

此外，在Databrick上使用pandas时，您会失去使用底层集群的所有好处。你只是在使用驱动程序

解决这个问题有两个明智的选择：

使用spark重做您的解决方案
使用koalas，它的API大部分与pandas兼容

编程相关推荐

java如何修复尝试将用户签名到服务器主机时出现的“字符串无法转换为json对象”错误？
控制台Java：不使用新行更新命令行中的文本
java servlet接收xml数据时，出现错误
使用REST API在Bitbucket中复制或复制存储库
java如何在JavaFX中对齐一行？
java如何在活动中显示通过服务获得的数据？
返回BigDecimal作为字符串：返回int
java组织。openqa。硒。InvalidSelectorException：尝试查找元素时选择器无效
java仅在阻塞状态下通知和通知所有影响线程
java JBOSS无法启动部署

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将表直接导入DataRicks中的Python数据帧？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >