根据2列对间隔范围进行分组

hole_name from to interval_type 0 A 0 1 Gold 1 A 1 2 Gold 2 A 2 4 Inferred_fault 3 A 4 6 NaN 4 A 6 7 NaN 5 A 7 8 NaN 6 A 8 9 Inferred_fault 7 A 9 10 NaN 8 A 10 11 Inferred_fault 9 B2 11 12 Inferred_fault 10 B2 12 13 Inferred_fault 11 B2 13 14 NaN

hole_name from to interval_type 0 A 0 2 Gold 2 A 2 4 Inferred_fault 3 A 4 8 NaN 6 A 8 9 Inferred_fault 7 A 9 10 NaN 8 A 10 11 Inferred_fault 9 B2 11 13 Inferred_fault 11 B2 13 14 NaN

2条回答

网友

1楼 · 编辑于 2024-05-15 03:00:52

您可以首先构建一个用于分组的指示符列。然后使用agg合并子组以从和到

(
    df.assign(ind=df.interval_type.fillna(''))
      .assign(ind=lambda x: x.ind.ne(x.ind.shift(1).bfill()).cumsum())
    .groupby(['hole_name', 'ind'])
    .agg({'from':'first', 'to':'last', 'interval_type': 'first'})
    .reset_index()
    .drop('ind',1)
)

hole_name   from    to  interval_type
0   A       0       2   Gold
1   A       2       4   Inferred_fault
2   A       4       8   NaN
3   A       8       9   Inferred_fault
4   A       9       10  NaN
5   A       10      11  Inferred_fault
6   B       11      13  Inferred_fault
7   B       13      14  NaN

网友

2楼 · 编辑于 2024-05-15 03:00:52

这应该可以做到：

import pandas as pd
import numpy as np
from itertools import groupby

# create dataframe
data = {
    'hole_name': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B'],
    'from': [0, 1, 2, 4, 6, 7, 8, 9, 10, 11, 12, 13],
    'to': [1, 2, 4, 6, 7, 8, 9, 10, 11, 12, 13, 14],
    'interval_type': ['Gold', 'Gold', 'Inferred_fault', np.nan, np.nan, np.nan, 
                      'Inferred_fault', np.nan, 'Inferred_fault', 'Inferred_fault', 
                      'Inferred_fault', np.nan]
}

df = pd.DataFrame(data=data)

# create auxiliar column that groups repetitive consecutive values
grouped = [list(g) for k, g in groupby(list(zip(df.hole_name.tolist(), df.interval_type.tolist())))]
df['interval_type_id'] = np.repeat(range(len(grouped)),[len(x) for x in grouped])+1

# aggregate results
cols = df.columns[:-1]
vals = []
for idx, group in df.groupby(['interval_type_id', 'hole_name']):
    vals.append([group['hole_name'].iloc[0], group['from'].min(), group['to'].max(), group['interval_type'].iloc[0]])

result = pd.DataFrame(data=vals, columns=cols)
result

result应该是：

hole_name   from    to  interval_type
A   0   2   Gold
A   2   4   Inferred_fault
A   4   8   
A   8   9   Inferred_fault
A   9   10  
A   10  11  Inferred_fault
B   11  13  Inferred_fault
B   13  14

编辑：将hole_name添加到groupby函数中

相关问题更多 >

编程相关推荐

热门问题

热门文章