Python Pandas通过匹配主标识符将来自多个数据帧的数据追加到同一行，如果该数据帧没有结果，则留空

[df1] 0 Col1 Col2 1 XYZ 41235 2 OAIS 15123 3 ABC 48938 [df2] 0 Col1 Col2 1 KFJ 21493 2 XYZ 43782 3 SHIZ 31299 4 ABC 33347 [Expected Output] 0 Col1 [df1] [df2] 1 XYZ 41235 43782 2 OAIS 15123 3 ABC 48938 33347 4 KFJ 21493 5 SHIZ 31299

3条回答

网友

1楼 · 编辑于 2024-05-15 03:33:25

您需要使用参数how='outer'合并

new_df = df1.merge(df2, on = 'Col1',how = 'outer', suffixes=('_df1', '_df2'))

你得到了

^{pr2}$

网友

2楼 · 编辑于 2024-05-15 03:33:25

您可以使用合并功能。在

pd.merge(df1, df2, on=['Col1'])

您可以通过添加到列表on来使用多个键。在

您可以在here中阅读有关merge函数的更多信息

如果您只需要某些列，则可以通过以下方式访问：

^{pr2}$

编辑：

在循环某些df的情况下，您可以循环所有df，但第一个df除外，并将它们全部合并：

df_list = [df2, df3, df4]

for df in df_list:
     df1 = df1.merge(df['col1','col2']], on=['Col1'])

网友

3楼 · 编辑于 2024-05-15 03:33:25

对于迭代合并，考虑在列表中存储数据帧，然后使用reduce()运行链合并。下面通过Excel文件从列表理解创建一个数据帧列表，其中enumerate()用于将Col2依次重命名为df1，df2等

from functools import reduce
...

dfList = [pd.read_excel(xl).rename(columns={'Col2':'df'+str(i)})
           for i,xl in enumerate(["set1.xlsx", "set2.xlsx", "set3.xlsx", 
                                  "set4.xlsx", "set5.xlsx", "set6.xlsx"])]

df = reduce(lambda x,y: pd.merge(x, y, on=['Col1'], how='outer'), dfList)

#    Col1      df1      df2
# 0   XYZ  41235.0  43782.0
# 1  OAIS  15123.0      NaN
# 2   ABC  48938.0  33347.0
# 3   KFJ      NaN  21493.0
# 4  SHIZ      NaN  31299.0

或者，使用pd.concat并在需要将Col1设置为索引的地方水平连接数据帧：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章