PySpark比较数据帧

2024-06-16 11:55:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我是PySpark的新手,所以抱歉,如果这有点简单的话,我发现了其他比较数据帧的问题,但不是这样的问题,因此我不认为这是重复的。 我试着比较两个结构相似的日期框架。“name”将是唯一的,但计数可能不同。

因此,如果计数不同,我希望它生成一个数据帧或一个python字典。就像下面一样。你对我如何取得这样的成就有什么想法吗?

DF1型

+-------+---------+
|name   | count_1 |
+-------+---------+
|  Alice|   1500  |
|    Bob|   1000  |
|Charlie|   150   |
| Dexter|   100   |
+-------+---------+

DF2型

+-------+---------+
|name   | count_2 |
+-------+---------+
|  Alice|   1500  |
|    Bob|   200   |
|Charlie|   150   |
| Dexter|   10    |
+-------+---------+

产生结果:

不匹配

+-------+-------------+--------------+
|name   | df1_count   | df2_count    |
+-------+-------------+--------------+
|    Bob|   1000      |    200       |
| Dexter|   100       |     10       |
+-------+-------------+--------------+

匹配

+-------+-------------+--------------+
|name   | df1_count   | df2_count    |
+-------+-------------+--------------+
|  Alice|   1500      |   1500       |
|Charlie|   150       |    150       |
+-------+-------------+--------------+

Tags: 数据name框架字典count结构pyspark计数