我试图合并两个包含相同键列的数据帧。其他一些列也有相同的标题,尽管行数不同,合并后这些列与给定postscript x,y等的原始标题“重复”
有人知道如何让pandas删除下面示例中的重复列吗?
这是我的python代码:
import pandas as pd
holding_df = pd.read_csv('holding.csv')
invest_df = pd.read_csv('invest.csv')
merge_df = pd.merge(holding_df, invest_df, on='key', how='left').fillna(0)
merge_df.to_csv('merged.csv', index=False)
CSV文件包含以下内容:
左数据框的第一行(保持数据框)
key, dept_name, res_name, year, need, holding
DeptA_ResA_2015, DeptA, ResA, 2015, 1, 1
DeptA_ResA_2016, DeptA, ResA, 2016, 1, 1
DeptA_ResA_2017, DeptA, ResA, 2017, 1, 1
...
右数据帧(invest_-df)
key, dept_name, res_name, year, no_of_inv, inv_cost_wo_ice
DeptA_ResA_2015, DeptA, ResA, 2015, 1, 1000000
DeptA_ResB_2015, DeptA, ResB, 2015, 2, 6000000
DeptB_ResB_2015, DeptB, ResB, 2015, 1, 6000000
...
合并结果
key, dept_name_x, res_name_x, year_x, need, holding, dept_name_y, res_name_y, year_y, no_of_inv, inv_cost_wo_ice
DeptA_ResA_2015, DeptA, ResA, 2015, 1, 1, DeptA, ResA, 2015.0, 1.0, 1000000.0
DeptA_ResA_2016, DeptA, ResA, 2016, 1, 1, 0, 0, 0.0, 0.0, 0.0
DeptA_ResA_2017, DeptA, ResA, 2017, 1, 1, 0, 0, 0.0, 0.0, 0.0
DeptA_ResA_2018, DeptA, ResA, 2018, 1, 1, 0, 0, 0.0, 0.0, 0.0
DeptA_ResA_2019, DeptA, ResA, 2019, 1, 1, 0, 0, 0.0, 0.0, 0.0
...
有后缀为''x'和''y'的附加列的原因是,要合并的列没有匹配的值,因此此冲突会产生附加列。在这种情况下,您需要删除附加的'\u y'列并重命名'\u x'列:
编辑 如果将公用列添加到合并中,则不应生成重复的列,除非这些列上的匹配项不匹配:
即使列的数据相同,在左联接后重复列的问题也是一样的。我做了一个查询,发现NaN值被认为是不同的,即使pandas 0.14中的两列都是NaN。但是一旦你升级到0.15,这个问题就消失了,这就解释了为什么它以后对你有效,你可能升级了。
不完全是答案,但是
pd.merge
提供了一个参数,帮助您决定哪些后缀应该添加到重叠列中:如果决定同时保留这两个名称(或检查保留列的原因),则更有意义的名称可能会有所帮助。
请参阅documentation以获取更多参考。
相关问题 更多 >
编程相关推荐