我是PySpark的新手,所以抱歉,如果这有点简单的话,我发现了其他比较数据帧的问题,但不是这样的问题,因此我不认为这是重复的。 我试着比较两个结构相似的日期框架。“name”将是唯一的,但计数可能不同。
因此,如果计数不同,我希望它生成一个数据帧或一个python字典。就像下面一样。你对我如何取得这样的成就有什么想法吗?
DF1型
+-------+---------+
|name | count_1 |
+-------+---------+
| Alice| 1500 |
| Bob| 1000 |
|Charlie| 150 |
| Dexter| 100 |
+-------+---------+
DF2型
+-------+---------+
|name | count_2 |
+-------+---------+
| Alice| 1500 |
| Bob| 200 |
|Charlie| 150 |
| Dexter| 10 |
+-------+---------+
产生结果:
不匹配
+-------+-------------+--------------+
|name | df1_count | df2_count |
+-------+-------------+--------------+
| Bob| 1000 | 200 |
| Dexter| 100 | 10 |
+-------+-------------+--------------+
匹配
+-------+-------------+--------------+
|name | df1_count | df2_count |
+-------+-------------+--------------+
| Alice| 1500 | 1500 |
|Charlie| 150 | 150 |
+-------+-------------+--------------+
目前没有回答
相关问题 更多 >
编程相关推荐