基于某个col1值查找col2值，如果不存在，则使用pandas保留最近的值

df col1 col2 1 10 2 15 4 12 5 23 6 11 8 32 9 12 11 32 2 23 3 21 4 12 6 15 9 12 10 32

3条回答

网友

1楼 · 编辑于 2024-05-13 20:15:30

与pir的方法非常相似

s=df.col1.diff().lt(0).cumsum()
idx=df.reset_index().groupby(s).apply(lambda x : x.set_index('col1').reindex([1,5,10],method='nearest'))['index']
df.loc[idx]
Out[19]: 
    col1  col2
0      1    10
3      5    23
7     11    32
8      2    23
11     6    15
13    10    32

另一种获取索引merge_asof

df['key']=s
import itertools
l=list(itertools.product(df.key.unique().tolist(),[1,5,10]))
mergedf=pd.DataFrame(l,columns=['key','col1']).astype(int)
df.col1=df.col1.astype('int32')
idx=pd.merge_asof(mergedf.sort_values('col1'),df.reset_index().sort_values('col1'),on='col1',by='key',direction ='nearest')['index']

网友

2楼 · 编辑于 2024-05-13 20:15:30

试试这个：

def extract_vals(x, vals=[1,5,10]):
    vals = np.array(vals)
    s = abs(x['col1'].values - vals[:,None])

    return x.iloc[s.argmin(axis=1)]

s = df.col1.diff().lt(0).cumsum()
df.groupby(s).apply(extract_vals).reset_index(drop=True)

由于第二组中存在4,6，因此输出与您的不同：

    col1    col2
0   1       10
1   5       23
2   9       12
3   2       23
4   4       12
5   10      32

网友

3楼 · 编辑于 2024-05-13 20:15:30

df.col1.diff().lt(0).cumsum()定义升序值组
set_index与那些组和col1但将col1与drop=False保持在数据帧中
groupby和pd.concat使用reindex和method='nearest'

我留下了旧的col1索引，以便您可以看到映射到什么的内容。你知道吗

c = df.set_index([df.col1.diff().lt(0).cumsum().rename('grp'), 'col1'], drop=False)
pd.concat([c.xs(k).reindex([1, 5, 10], method='nearest') for k, c in c.groupby(level=0)])

      col1  col2
col1            
1        1    10
5        5    23
10      11    32
1        2    23
5        6    15
10      10    32

如果您不喜欢索引中额外的col1，可以重命名索引，然后删除它：

c = df.set_index([df.col1.diff().lt(0).cumsum().rename('grp'), 'col1'], drop=False)
pd.concat([c.xs(k).reindex([1, 5, 10], method='nearest') for k, c in c.groupby(level=0)]) \
    .rename_axis(None).reset_index(drop=True)

   col1  col2
0     1    10
1     5    23
2    11    32
3     2    23
4     6    15
5    10    32

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于某个col1值查找col2值，如果不存在，则使用pandas保留最近的值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >