pyspark v 1.6数据帧没有左反连接？

df1: +----+---+ | id | x | +----+---+ | 1 | a | | 2 | b | | 3 | c | | 4 | d | +----+---+ df2: +----+---+ | id | x | +----+---+ | 1 | a | | 2 | b | +----+---+ desired output df3: +----+---+ | id | x | +----+---+ | 3 | c | | 4 | d | +----+---+

2条回答

网友

1楼 · 编辑于 2024-04-27 03:07:32

我们可以模拟leftanti与left join连接，并且只从df2中的id中过滤空列

Example:

df1.alias("a").join(df2.alias("b"),col("a.id") == col("b.id"),"left").filter("b.id is null").select("a.*").show()
#+ -+ -+
#| id|  x|
#+ -+ -+
#|  3|  c|
#|  4|  d|
#+ -+ -+

从Spark2.4+开始，我们可以在这种情况下使用^{}函数：

df1.exceptAll(df2).show()

#+ -+ -+
#| id|  x|
#+ -+ -+
#|  3|  c|
#|  4|  d|
#+ -+ -+

网友

2楼 · 编辑于 2024-04-27 03:07:32

我很喜欢Spark 1.6的@Shu（不幸的是，它仍然在许多遗留系统中使用）的答案，如果有人需要的话，我将其推广到以后使用：

def subtractByKey(df1, df2, key):
    return (df1.alias("a").join(df2.alias("b"), on=F.col("a.{key}".format(key=key)) == F.col("b.{key}".format(key=key)), how="left")
            .where("b.{key} IS NULL".format(key=key))
            ).select("a.*")

在最近的Spark版本中，同样的行为也可以通过

df1.join(df2, on=key, how="left_anti")

相关问题更多 >

编程相关推荐

热门问题

热门文章