基于连续行值差异拆分数据帧

df1 col1 col2 col3 1 2 3 2 5 6 df2 col1 col2 col3 7 8 9 df3 col1 col2 col3 10 11 12 11 12 13 df4 col1 col2 col3 13 14 15 14 15 16

2条回答

网友

1楼 · 编辑于 2024-05-13 21:11:23

您还可以剥离目标列并将其作为一个系列处理，而不是上面的答案。这使一切都变得更小。在这个示例中，它运行得更快，但我不知道它们将如何扩展，这取决于拆分的次数

row_bool = df['col1'].diff()>1
split_inds, = np.where(row_bool)
split_inds = np.insert(arr=split_inds, obj=[0,len(split_inds)], values=[0,len(df)])

df_tup = ()
for n in range(0,len(split_inds)-1):
    tempdf = df.iloc[split_inds[n]:split_inds[n+1],:]
    df_tup.append(tempdf)

（只是在之后将其放入数据帧的元组中，但字典方法可能更好？）

网友

2楼 · 编辑于 2024-05-13 21:11:23

您可以通过取^{}，检查它何时大于1，并取布尔序列的^{}来定义自定义grouper。然后根据结果分组并从groupby对象构建字典：

d = dict(tuple(df.groupby(df.col1.diff().gt(1).cumsum())))

print(d[0])
   col1  col2  col3
0     1     2     3
1     2     5     6

print(d[1])
   col1  col2  col3
2     7     8     9

更详细的细分：

df.assign(difference=(diff:=df.col1.diff()), 
          condition=(gt1:=diff.gt(1)), 
          grouper=gt1.cumsum())

   col1  col2  col3  difference  condition  grouper
0     1     2     3         NaN      False        0
1     2     5     6         1.0      False        0
2     7     8     9         5.0       True        1
3    10    11    12         3.0       True        2
4    11    12    13         1.0      False        2
5    13    14    15         2.0       True        3
6    14    15    16         1.0      False        3

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于连续行值差异拆分数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >