基于Lambda的PandasGroupby及其算法

import pandas as pd import jenkspy f = pd.DataFrame({'BreakGroup':['A','A','A','A','A','A','B','B','B','B','B'], 'Final':[1,2,3,4,5,6,10,20,30,40,50]}) BreakGroup Final 0 A 1 1 A 2 2 A 3 3 A 4 4 A 5 5 A 6 6 B 10 7 B 20 8 B 30 9 B 40 10 B 50

BreakGroup Final Result 0 A 1 2 1 A 2 3 2 A 3 4 3 A 4 4 4 A 5 6 5 A 6 6 6 B 10 20 7 B 20 30 8 B 30 40 9 B 40 50 10 B 50 50

f.sort_values('BreakGroup',inplace=True) f.reset_index(drop=True,inplace=True) jenks = lambda x: jenkspy.jenks_breaks(x['Final'].tolist(),nb_class=4) g = f.set_index('BreakGroup') g['Groups'] = f.groupby(['BreakGroup']).apply(jenks) g.reset_index(inplace=True) groups= lambda x: [gp for gp in x['Groups']] #'final' value should be > lower and <= upper upper = lambda x: [gp for gp in x['Groups'] if gp >= x['Final']][0] # or gp == max(x['Groups']) lower= lambda x: [gp for gp in x['Groups'] if gp < x['Final'] or gp == min(x['Groups'])][-1] GroupIndex= lambda x: [x['Groups'].index(gp) for gp in x['Groups'] if gp < x['Final'] or gp == min(x['Groups'])][-1] f['Groups']=g.apply(groups, axis=1) f['Upper'] = g.apply(upper, axis=1) f['Lower'] = g.apply(lower, axis=1) f['Group'] = g.apply(GroupIndex, axis=1) f['Group']=f['Group']+1

2条回答

网友

1楼 · 编辑于 2024-04-25 23:14:10

您已经将jenks定义为一个常量，根据lambda变量x定义，因此它不取决于使用apply或transform提供的内容。将jenks的定义更改为

jenks = lambda x: jenkspy.jenks_breaks(x['Final'].tolist(),nb_class=4)

给予

^{pr2}$

继续这个重新定义

g = f.set_index('BreakGroup')
g['Groups'] = f.groupby(['BreakGroup']).apply(jenks)
g.reset_index(inplace=True)
group = lambda x: [gp for gp in x['Groups'] if gp > x['Final'] or gp == max(x['Groups'])][0]
f['Result'] = g.apply(group, axis=1)

给予

In [323]: f
Out[323]: 
   BreakGroup  Final  Result
0           A      1     2.0
1           A      2     3.0
2           A      3     4.0
3           A      4     6.0
4           A      5     6.0
5           A      6     6.0
6           B     10    20.0
7           B     20    30.0
8           B     30    40.0
9           B     40    50.0
10          B     50    50.0

网友

2楼 · 编辑于 2024-04-25 23:14:10

当前，您正在将一个序列传递到transform()中，而不是您为筛选条件准备的标量。考虑为第一个值（如x.index[0]）编制索引，因为groupby系列中的所有值都是相同的。您甚至可以运行min(x)或max(x)：

lambda x: jenkspy.jenks_breaks(f['Final'].loc[f['BreakGroup']==x.index[0]].tolist(), nb_class=4)

f['Group'] = f.groupby(['BreakGroup'])['BreakGroup'].transform(jenks)

相关问题更多 >

编程相关推荐

热门问题

热门文章