在PySpark中，如何基于另一个数据帧中的查找填充新列？

+----+-------------+ | ID | Role | +----+-------------+ | 1 | Author | | 1 | Editor | | 2 | Author | | 2 | Publisher | | 3 | Editor | | 3 | Assistant | +----+-------------+

+----+-------------+-------------+ | ID | Name | Role | +----+-------------+-------------+ | 1 | John Smith | Author | | 1 | John Smith | Editor | | 2 | John Doe | Author | | 2 | John Doe | Publisher | | 3 | Bob Jim Bob | Editor | | 3 | Bob Jim Bob | Assistant | +----+-------------+-------------+

1条回答

网友

1楼 · 发布于 2024-05-23 22:37:16

您可以在pySpark中合并两个数据帧，如下所示：

>>> df1.show()
+ -+    -+
| ID|     Role|
+ -+    -+
|  1|   Author|
|  1|   Editor|
|  2|   Author|
|  2|Publisher|
|  3|   Editor|
|  3|Assistant|
+ -+    -+

>>> df2.show()
+ -+     -+
| ID|       Name|
+ -+     -+
|  1| John Smith|
|  2|   John Doe|
|  3|Bob Jim Bob|
+ -+     -+

>>> df3 = df2.join(df1,"ID")
>>> df3.show()
+ -+     -+    -+
| ID|       Name|     Role|
+ -+     -+    -+
|  1| John Smith|   Author|
|  1| John Smith|   Editor|
|  2|   John Doe|   Author|
|  2|   John Doe|Publisher|
|  3|Bob Jim Bob|   Editor|
|  3|Bob Jim Bob|Assistant|
+ -+     -+    -+

Note: I am assuming "ID" as foreign Key, Please let comment out in case any concerns.

相关问题更多 >

编程相关推荐

热门问题

热门文章