我试图合并两个数据帧,但保持顺序
第一个数据帧具有以下值:
>>> df_branch1.show(10,False)
+------------------------+
|col |
+------------------------+
|Sorter_SAMPLE_CUSTOMER |
|Join_Source_Target |
|Exp_DetectChanges |
|Filter_Unchanged_Records|
|Router_UPDATE_INSERT |
|Seq_Unique_Key |
+------------------------+
第二个数据帧具有以下值:
>>> df_branch2.show(10,False)
+------------------------+
|col |
+------------------------+
|Sorter_CUSTOMER_MASTER |
|Join_Source_Target |
|Exp_DetectChanges |
|Filter_Unchanged_Records|
|Router_UPDATE_INSERT |
|Seq_Unique_Key |
+------------------------+
我希望合并数据帧,但保留顺序,并希望保留顺序
输出预期如下:
+------------------------+
|col |
+------------------------+
|Sorter_SAMPLE_CUSTOMER |
|Sorter_CUSTOMER_MASTER |
|Join_Source_Target |
|Exp_DetectChanges |
|Filter_Unchanged_Records|
|Router_UPDATE_INSERT |
|Seq_Unique_Key |
+------------------------+
任何通过pyspark或python的解决方案都可以
此解决方案使用zipWithIndex,在mono上不可信。。。方法有另一个解决方案,但由于时间紧迫,它就在这里
返回,最终DF中保留了顺序,且不需要进行区分:
UPD
尽管问题很模糊,但该解决方案满足重复值的要求-如果存在,例如:
下面是一种使用
key
列的方法:相关问题 更多 >
编程相关推荐