Python：标识由两列给定的路由/路径

import pandas as pd # open file and read data with open('sample.csv') as f: data = pd.read_csv(f) # sort descending by columns `group` and `size` # sorting descending because `df.drop_duplicates()` keeps first element by default df_sorted = data.sort_values(['group', 'size'], ascending=False) # drop duplicates in order to keep first entry only one_entry = df_sorted.drop_duplicates('group') # print handled data print(one_entry)

1条回答

网友

1楼 · 发布于 2024-04-25 07:26:42

可以将^{}与^{}和last^{}一起使用。为了更好的测试，增加了下一组：

print df
        group  size    from      to
0   group32a4   500  6sq2gp  m4qfce
1   group32a4   800  oxlwtg  ru1u5r
2   group32a4  1200  rpziz0  oxlwtg
3   group32a4  1400  ru1u5r  fvvskj
4   group32a4   500  m4qfce  60m2eq
5   group32a4    50  fvvskj  6sq2gp
6   group13a4   500  6sq2gp  m4qfce
7   group13a4   800  oxlwtg  ru1u5r
8   group13a4  1200  rpziz0  oxlwtg
9   group13a4  1400  ru1u5r  fvvskj
10  group13a4   500  m4qfce  60m2eq
11  group13a4    50  fvvskj  6sq2gp

#set index and stack data - columns 'from' and 'to' to one column 'route'
df = df.set_index(['group', 'size']).stack().reset_index(name='route')

print df
        group  size level_2   route
0   group32a4   500    from  6sq2gp
1   group32a4   500      to  m4qfce
2   group32a4   800    from  oxlwtg
3   group32a4   800      to  ru1u5r
4   group32a4  1200    from  rpziz0
5   group32a4  1200      to  oxlwtg
6   group32a4  1400    from  ru1u5r
7   group32a4  1400      to  fvvskj
8   group32a4   500    from  m4qfce
9   group32a4   500      to  60m2eq
10  group32a4    50    from  fvvskj
11  group32a4    50      to  6sq2gp
12  group13a4   500    from  6sq2gp
13  group13a4   500      to  m4qfce
14  group13a4   800    from  oxlwtg
15  group13a4   800      to  ru1u5r
16  group13a4  1200    from  rpziz0
17  group13a4  1200      to  oxlwtg
18  group13a4  1400    from  ru1u5r
19  group13a4  1400      to  fvvskj
20  group13a4   500    from  m4qfce
21  group13a4   500      to  60m2eq
22  group13a4    50    from  fvvskj
23  group13a4    50      to  6sq2gp

def f(x):
    #set column size to max
    x['size'] =  x['size'].max()
    return x.drop_duplicates('route', keep=False)

#apply custom function f
df = df.groupby('group').apply(f).reset_index(drop=True)
print df
       group  size level_2   route
0  group13a4  1400    from  rpziz0
1  group13a4  1400      to  60m2eq
2  group32a4  1400    from  rpziz0
3  group32a4  1400      to  60m2eq

#reshape data, remove column tmp
df = df.pivot(index='group', columns='level_2').reset_index()
df.columns = ['group','size','tmp','from', 'to']
df = df.drop('tmp', axis=1)
print df
       group  size    from      to
0  group13a4  1400  rpziz0  60m2eq
1  group32a4  1400  rpziz0  60m2eq

编辑：

类似地，我认为用^{}函数f和^{}，^{}填充^{}中的数据帧的更快的解决方案：

def f(x):
    #get max of column size
    m = x['size'].max()
    #remove all duplicates - stay only one value from and one value to
    x = x.drop_duplicates('route', keep=False)
    x['group'] = x.iat[0, 0]
    x['size'] = m
    x['from'] = x.iat[0, 3]
    x['to'] = x.iat[1, 3]

    #print x
    #return first row and columns group, size from to
    #print x.iloc[0,[0,1,4,5]]
    return  x.iloc[0,[0,1,4,5]]

#apply custom function f
df = df.groupby('group').apply(f).reset_index(drop=True)
print df
       group  size    from      to
0  group13a4  1400  rpziz0  60m2eq
1  group32a4  1400  rpziz0  60m2eq

相关问题更多 >

编程相关推荐

热门问题

热门文章