基于三列（或更多列）中的键搜索treshold值

Name1 Name2 Name3 Temp Height Alon Walon Balon 105 34 ] Alon Walon Balon 106 42 | Alon Walon Balon 105 33 ]-- Samples of Spot: Alon-Walon-Balon Alon Walon Kalon 101 11 ] Alon Walon Kalon 102 32 ]-- Samples of Spot: Alon-Walon-Kalon Alon Talon Balon 111 12 ]-- Samples of Spot: Alon-Talon-Balon Alon Talon Calon 121 10 ]-- Samples of Spot: Alon-Talon-Calon

df = df.groupby[['Name1','Name2','Name3','Temp','Height']].size().reset_index() visited = () cntSpot = 0 overValTemp = 0 overValHeight = 0 for i in len(df): name1 = str(df.get_value(i,'Name1')) name2 = str(df.get_value(i,'Name2')) name3 = str(df.get_value(i,'Name3')) if str(name1+name2+name3) in visited: cntSpot+=1 if df.get_value(i,'Temp')>105: overValTemp+=1 if df.get_value(i,'Height)<13: overValHeight+=1 a = str(name1+name2+name3) visited.update({a:cntSpot,overValemp,overValHeight})

1条回答

网友

1楼 · 发布于 2024-05-16 01:51:47

这是一个使用pandas groupby的解决方案，它肯定比循环更有效。你知道吗

grouped = df.groupby(('Name1', 'Name2', 'Name3'))

count = grouped.size()
temp = grouped.apply(lambda x: x[x['Temp']>105].shape[0])
height = grouped.apply(lambda x: x[x['Height']<13].shape[0])

result = pd.concat([count, temp, height],
                   keys = ['Count', 'overValTemp', 'overValHeight'],
                   axis = 1)
result.index = map(lambda x: "-".join(x), result.index.tolist())

结果如下：

                  Count  overValTemp  overValHeight
Alon-Talon-Balon      1            1              1
Alon-Talon-Calon      1            1              1
Alon-Walon-Balon      3            1              0
Alon-Walon-Kalon      2            0              1

相关问题更多 >

编程相关推荐

热门问题

热门文章