在jupyter noteb中使用pyspark内核从配置单元数据库进行迭代选择

2024-04-27 01:00:36 发布

您现在位置:Python中文网/ 问答频道 /正文

如何使用for loop使用pyspark拆分配置单元数据库:我有一个包含8000万行的数据库,按ID排序。每个ID可以有几行

pyspark
%%sql -o df1 -n -1
SELECT 
VAR1, 
VAR2
from  HIVE_table 
where id='id1'

我想开发一个pyspark函数或一个循环,使用id1,id2…idn实现df1,df2…dfn


Tags: fromloopid数据库forsql排序select