我试图用dict_值生成pyspark数据帧。我可以用pandas concate函数实现同样的效果。字典由key作为year和value作为pyspark数据帧组成。在
这是我的代码,我正在使用我有一个选择,联合所有的数据帧,我认为这不是更好的方式来实现它。在
dict_ym = {}
for yearmonth in keys:
key_name = 'df_'+str(yearmonth)
dict_ym[key_name]= df
# Add a new column to dataframe
# Perform some more transformation
dict_ym
# Now above dict has key as yearmonth for eg. 201501 and value as dataframe consit of 10 columns
def union_all_dataframes(*dfs):
return reduce(DataFrame.unionAll, dfs)
df2 = union_all_dataframes(dict_ym['df_201501'],dict_ym['df_201502'] ... so on till dict_ym['df_201709'])
但在pandas dataframe中,我可以这样做,使用下面的一组代码将下面的所有数据帧附加到其他数据帧上:
^{pr2}$我认为他们创建pyspark dataframe以及pandas.concat
会更加优雅。在
试试这个
相关问题 更多 >
编程相关推荐