从dict_值创建pyspark数据帧

2024-04-19 12:52:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用dict_值生成pyspark数据帧。我可以用pandas concate函数实现同样的效果。字典由key作为year和value作为pyspark数据帧组成。在

这是我的代码,我正在使用我有一个选择,联合所有的数据帧,我认为这不是更好的方式来实现它。在

dict_ym = {}
for yearmonth in keys:    
    key_name = 'df_'+str(yearmonth)
    dict_ym[key_name]= df
    # Add a new column to dataframe
    # Perform some more transformation

dict_ym 

# Now above dict has key as yearmonth for eg. 201501 and value as dataframe consit of 10 columns

def union_all_dataframes(*dfs):
    return reduce(DataFrame.unionAll, dfs)

df2 = union_all_dataframes(dict_ym['df_201501'],dict_ym['df_201502'] ... so on till dict_ym['df_201709'])

但在pandas dataframe中,我可以这样做,使用下面的一组代码将下面的所有数据帧附加到其他数据帧上:

^{pr2}$

我认为他们创建pyspark dataframe以及pandas.concat会更加优雅。在


Tags: 数据key代码namedataframepandasdffor