如何用另一个数据帧中的新值更新pyspark数据帧？

网友

1楼 · 编辑于 2024-06-09 05:34:35

这与update a dataframe column with new values密切相关，只是您还想从DataFrame B添加行。一种方法是首先执行链接问题中概述的内容，然后将结果与DataFrame B合并并删除重复项。在

例如：

dfA.alias('a').join(dfB.alias('b'), on=['col_1'], how='left')\
    .select(
        'col_1',
        f.when(
            ~f.isnull(f.col('b.col_2')),
            f.col('b.col_2')
        ).otherwise(f.col('a.col_2')).alias('col_2'),
        'b.col_3'
    )\
    .union(dfB)\
    .dropDuplicates()\
    .sort('col_1')\
    .show()
#+  -+  -+  -+
#|col_1|col_2|col_3|
#+  -+  -+  -+
#|    a|  wew|    1|
#|    b|  eee| null|
#|    c|  rer|    3|
#|    d|  yyy|    2|
#+  -+  -+  -+

或者更一般地使用列表理解，如果您有很多列要替换，并且您不想硬编码它们：

^{pr2}$

网友

2楼 · 编辑于 2024-06-09 05:34:35

我会选择不同的解决方案，我认为它不太冗长，更通用，不涉及列列表。我将首先通过执行基于keyCols（list）的内部连接来确定将被更新的dfA的子集（replaceDf）。然后我将从dfA中减去这个replaceDF，并将其与dfB结合。在

    replaceDf = dfA.alias('a').join(dfB.alias('b'), on=keyCols, how='inner').select('a.*')
    resultDf = dfA.subtract(replaceDf).union(dfB).show()

即使在dfA和dfB中有不同的列，您仍然可以通过从两个数据帧中获取列的列表并找到它们的并集来克服这个问题。那我会的准备select查询（而不是“select.（'a.'）*”），这样我就只列出dfA中存在于dfB+中的列+dfB中不存在的列。在

网友

3楼 · 编辑于 2024-06-09 05:34:35

如果您只想保留唯一值，并且要求严格正确的结果，那么union后跟{}应该可以做到：

columns_which_dont_change = [...]
old_df.union(new_df).dropDuplicates(subset=columns_which_dont_change)

相关问题更多 >

编程相关推荐

热门问题

热门文章