带有where条件的Spark update dataframe

1条回答

网友

1楼 · 发布于 2024-04-27 04:17:36

如果我正确理解您的问题，您正在尝试执行以下操作：

更新dataframe上的table_a a，table_b SET a.col3=b.col3，其中a.col1=b.col1。如果B中不存在，则0。（参考评论）

a = [("a",1,100),("b",2,300),("c",3,500),("d",4,700)]
b = [("a",150),("b",350),("d",650)]
df_a = spark.createDataFrame(a,["col1","col2","col3"])   
df_b = spark.createDataFrame(b,["col1","col3"])

df_a.show()
# +  +  +  +
# |col1|col2|col3|
# +  +  +  +
# |   a|   1| 100|
# |   b|   2| 300|
# |   c|   3| 500|
# |   d|   4| 700|
# +  +  +  +

df_b.show() # I have removed an entry for the purpose of the demo.
# +  +  +
# |col1|col3|
# +  +  +
# |   a| 150|
# |   b| 350|
# |   d| 650|
# +  +  +

您需要执行outer join，然后执行coalesce：

^{pr2}$

编程相关推荐

java无法更新Maven配置
Java中错误和异常的区别？
java从日期开始获得小时、分钟和秒？
使用jsonpath使用数组索引进行java解析
java如何从改造中读取json响应
Java：封装概念
Scala的java Play Framework:[类型控制器不是包控制器的成员]
java JPA Hibernate使用criteria builder生成的左连接被忽略
使用mvn测试版本号时，java Maven无法解析依赖项
java安卓的vitals和异常处理

相关问题更多 >

编程相关推荐

热门问题

热门文章

带有where条件的Spark update dataframe

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >