数据帧的合并

day total_bill_x restaurant total_bill_y Fri 651.76 DINER A 325.88 Sat 3,556.80 DINER A 1,778.40 Sun 1,627.16 DINER A NaN Thur 2,192.66 DINER A 1,096.33

day total_bill_x restaurant total_bill_y Fri 651.76 DINER A 325.88 Sat 3,556.80 DINER A 1,778.40 Sun 1,627.16 NaN NaN Thur 2,192.66 DINER A 1,096.33

import pandas as pd df=pd.read_csv("https://raw.githubusercontent.com/wesm/pydata-book/master/ch08/tips.csv", sep=',') df2=pd.read_csv("https://raw.githubusercontent.com/wesm/pydata-book/master/ch08/tips.csv", sep=',') df=df[df['day']!="Sun"] df['restaurant']="DINER A" df3=df.append(df2) df_output=df.groupby(['restaurant','day'])[['total_bill']].sum().reset_index() df_output2=df3.groupby(['day'])[['total_bill']].sum().reset_index() pd.merge(df_output2,df_output, on='day', how="outer")

2条回答

网友

1楼 · 编辑于 2024-04-20 12:31:15

你可以分两步来做。首先将餐厅A的总账单的值映射到df\ U output2

df_output2['DINER_A'] = df_output2['day'].map(df_output.set_index('day')['total_bill'])

给你

    day     total_bill  DINER_A
0   Fri     651.76      325.88
1   Sat     3556.80     1778.40
2   Sun     1627.16     NaN
3   Thur    2192.66     1096.33

现在将DINER_A列融化，创建两列restaurant和total_bill

df_output2 = pd.melt(df_output2, id_vars=['day', 'total_bill'],var_name="restaurant", value_name="total_bill_A")

你得到了吗

    day    total_bill   restaurant  total_bill_A
0   Fri    651.76       DINER_A     325.88
1   Sat    3556.80      DINER_A     1778.40
2   Sun    1627.16      DINER_A     NaN
3   Thur   2192.66      DINER_A     1096.33

网友

2楼 · 编辑于 2024-04-20 12:31:15

设置

df = pd.read_csv(
    "https://raw.githubusercontent.com/wesm/pydata-book/master/ch08/tips.csv", sep=',')

d1 = pd.concat([df.query('day != "Sun"'), df], keys=['DINER A', 'DINER B']) \
    .rename_axis(['restaurant', None]).reset_index('restaurant')

建立一个`pd.MultiIndex`与所有餐厅和日子

mux = pd.MultiIndex.from_product([
        d1.restaurant.unique(),
        d1.day.unique()
    ], names=['restaurant', 'day'])

做`groupby`+`join`+`reindex`

d2 = d1.groupby(['day']).total_bill.sum()
d3 = d1.groupby(['restaurant', 'day'])[['total_bill']].sum()

d3.reindex(mux).join(d2, lsuffix='_x', rsuffix='_y').reset_index()

  restaurant   day  total_bill_x  total_bill_y
0    DINER A   Sat       1778.40       3556.80
1    DINER A  Thur       1096.33       2192.66
2    DINER A   Fri        325.88        651.76
3    DINER A   Sun           NaN       1627.16
4    DINER B   Sat       1778.40       3556.80
5    DINER B  Thur       1096.33       2192.66
6    DINER B   Fri        325.88        651.76
7    DINER B   Sun       1627.16       1627.16

设置

建立一个`pd.MultiIndex`与所有餐厅和日子

做`groupby`+`join`+`reindex`

相关问题更多 >

编程相关推荐

热门问题

热门文章