基于条件的数据帧分组

2条回答

网友

1楼 · 编辑于 2024-04-23 06:18:48

一个想法是通过np.select分解，然后通过numba使用自定义循环：

from numba import njit

df = pd.DataFrame({'Vehicle_ID': ['A']*18,
                   'Position': ['START', 'MID', 'MID', 'END', 'MID', 'START']*3})

@njit
def grouper(pos):
    res = np.empty(pos.shape)
    num = 1
    started = 0
    for i in range(len(res)):
        current_pos = pos[i]
        if (started == 0) and (current_pos == 0):
            started = 1
            res[i] = num
        elif (started == 1) and (current_pos == 1):
            started = 0
            res[i] = num
            num += 1
        elif (started == 1) and (current_pos in [-1, 0]):
            res[i] = num
        else:
            res[i] = 0
    return res

arr = np.select([df['Position'].eq('START'), df['Position'].eq('END')], [0, 1], -1)

df['Group'] = grouper(arr).astype(int)

结果：

print(df)

   Position Vehicle_ID  Group
0     START          A      1
1       MID          A      1
2       MID          A      1
3       END          A      1
4       MID          A      0
5     START          A      2
6     START          A      2
7       MID          A      2
8       MID          A      2
9       END          A      2
10      MID          A      0
11    START          A      3
12    START          A      3
13      MID          A      3
14      MID          A      3
15      END          A      3
16      MID          A      0
17    START          A      4

在我看来，您应该而不是包含“blank”值，因为这将迫使您的序列成为object数据类型，对任何后续处理都没有效率。如上所述，您可以使用0。你知道吗

绩效基准

numba比一只纯熊猫快约10倍方法：-你知道吗

import pandas as pd, numpy as np
from numba import njit

df = pd.DataFrame({'Vehicle_ID': ['A']*18,
                   'Position': ['START', 'MID', 'MID', 'END', 'MID', 'START']*3})


df = pd.concat([df]*10, ignore_index=True)

assert joz(df.copy()).equals(jpp(df.copy()))

%timeit joz(df.copy())  # 18.6 ms per loop
%timeit jpp(df.copy())  # 1.95 ms per loop

基准功能：

def joz(df):
    # identification of sequences
    df['Position_Prev'] = df['Position'].shift(1)
    df['Sequence'] = 0
    df.loc[(df['Position'] == 'START') & (df['Position_Prev'] != 'START'), 'Sequence'] = 1
    df.loc[df['Position'] == 'END', 'Sequence'] = -1
    df['Sequence_Sum'] = df['Sequence'].cumsum()
    df.loc[df['Sequence'] == -1, 'Sequence_Sum'] = 1

    # take only items between START and END and generate Group number
    df2 = df[df['Sequence_Sum'] == 1].copy()
    df2.loc[df['Sequence'] == -1, 'Sequence'] = 0
    df2['Group'] = df2['Sequence'].cumsum()

    # merge results to one dataframe
    df = df.merge(df2[['Group']], left_index=True, right_index=True, how='left')
    df['Group'] = df['Group'].fillna(0)
    df['Group'] = df['Group'].astype(int)
    df.drop(['Position_Prev', 'Sequence', 'Sequence_Sum'], axis=1, inplace=True)    
    return df

@njit
def grouper(pos):
    res = np.empty(pos.shape)
    num = 1
    started = 0
    for i in range(len(res)):
        current_pos = pos[i]
        if (started == 0) and (current_pos == 0):
            started = 1
            res[i] = num
        elif (started == 1) and (current_pos == 1):
            started = 0
            res[i] = num
            num += 1
        elif (started == 1) and (current_pos in [-1, 0]):
            res[i] = num
        else:
            res[i] = 0
    return res

def jpp(df):
    arr = np.select([df['Position'].eq('START'), df['Position'].eq('END')], [0, 1], -1)
    df['Group'] = grouper(arr).astype(int)
    return df

网友
2楼 · 编辑于 2024-04-23 06:18:48

我有办法。你必须避免循环，并尝试使用滑动，切片和合并。你知道吗
这是我的第一个原型（应该重构）
# identification of sequences df['Position_Prev'] = df['Position'].shift(1) df['Sequence'] = 0 df.loc[(df['Position'] == 'START') & (df['Position_Prev'] != 'START'), 'Sequence'] = 1 df.loc[df['Position'] == 'END', 'Sequence'] = -1 df['Sequence_Sum'] = df['Sequence'].cumsum() df.loc[df['Sequence'] == -1, 'Sequence_Sum'] = 1 # take only items between START and END and generate Group number df2 = df[df['Sequence_Sum'] == 1].copy() df2.loc[df['Sequence'] == -1, 'Sequence'] = 0 df2['Group'] = df2['Sequence'].cumsum() # merge results to one dataframe df = df.merge(df2[['Group']], left_index=True, right_index=True, how='left') df['Group'] = df['Group'].fillna(0) df['Group'] = df['Group'].astype(int) df.drop(columns=['Position_Prev', 'Sequence', 'Sequence_Sum'], inplace=True) df
结果：
Vehicle_ID Position Group 0 A START 1 1 A MID 1 2 A MID 1 3 A END 1 4 A MID 0 5 A START 2 6 A START 2 7 A MID 2 8 A MID 2 9 A END 2 10 A MID 0 11 A START 3 12 A START 3 13 A MID 3 14 A MID 3 15 A END 3 16 A MID 0 17 A START 4

绩效基准

相关问题更多 >

编程相关推荐

热门问题

热门文章