如何从pandas数据帧中统一抽取每个子组的n行

import pandas as pd import numpy as np columns = ['FactorA', 'FactorB', 'step'] data = [['A1', 'B1', 8], ['A1', 'B1', 13], ['A1', 'B1', 18], ['A1', 'B1', 23], ['A1', 'B1', 28], ['A1', 'B1', 33], ['A1', 'B1', 38], ['A1', 'B2', 7], ['A1', 'B2', 13],['A1', 'B2', 19],['A1', 'B2', 25],['A1', 'B2', 31],['A1', 'B2', 37], ['A2', 'B1', 6], ['A2', 'B1', 14],['A2', 'B1', 22],['A2', 'B1', 30],['A2', 'B1', 38], ['A2', 'B2', 10], ['A2', 'B2', 12],['A2', 'B2', 14],['A2', 'B2', 16],['A2', 'B2', 18],['A2', 'B2', 20],['A2', 'B2', 22],['A2', 'B2', 24],['A2', 'B2', 26],['A2', 'B2', 28],['A2', 'B2', 30],['A2', 'B2', 32],['A2', 'B2', 34],['A2', 'B2', 36] ] df = pd.DataFrame(data, columns=columns) df['eval'] = np.random.randint(1, 6, df.shape[0])

2条回答

网友

1楼 · 编辑于 2024-04-26 01:31:08

请看您帖子中的以下说明：

df.sample(n=int(len(df)))

奇怪的是：

不需要int（len已经有int类型）。在
len（df）从df选择所有行，因此您的“sample”是这样创建的包含完整原始df，仅对顺序进行无序处理。这是你想要的吗？在

就集团平衡而言：

决定如何保持平衡：

选项1：每组样本行数相等。在
选择2：每组样本的分数相等。在

当你下定决心时：

对组条件运行源数据帧的groupby
应用从当前组返回相应样本的函数。在

示例：如果要从df中选择2行的样本每组（选项1），运行：

^{pr2}$

如果要返回原始（单级）索引，请添加：

.reset_index(level=[0, 1], drop=True)

按照上面的指示。在

如果你喜欢选项2（分数），改变n=。。。到frac=。。。。在

网友

2楼 · 编辑于 2024-04-26 01:31:08

在@Valdi_Bo的回答之后，我进入了Group By: split-apply-combine页面，将here、here、here、here、和{a6}中的想法混合起来，得到了一个不优雅但有效的解决方案。在

对于示例中的dataframe，我们可以计算每个组的行数：

grouped = df.groupby(['FactorA','FactorB'])
grouped.size()

这会产生：

^{pr2}$

为了将每个组的数据行减少到一个以上但接近3的数字，每个子组的step列中的值之间的间距相等，并强制包含最大的step，我使用：

def filter_group(dfg, col, qty):
    col_min = dfg[col].min()
    col_max = dfg[col].max()
    col_length = dfg[col].size
    jumps = col_length-1
    jump_size = int((col_max - col_min) / jumps)
    new_jump_size =  jumps/qty
    if new_jump_size > 1:
        new_jump_size = int(new_jump_size)*jump_size
    else:
        new_jump_size = jump_size

    col_select = list(range(col_min, col_max, new_jump_size))
    col_select.append(col_max)

    return dfg[dfg[col].isin(col_select)]

grouped = df.groupby(['FactorA','FactorB'], group_keys=False).apply(lambda x: filter_group(x,'step',3))

我们可以验证演示数据帧的行数：

grouped = grouped.groupby(['FactorA','FactorB'])
grouped.size()

这会产生：

FactorA  FactorB
A1       B1         4
         B2         6
A2       B1         5
         B2         5
dtype: int64

如果有时间的话，我会尝试，并在修改它以使用与steps列范围相关的权重的示例函数时发布它。所以我得到了一半的数据点在前三分之一的范围内。在

相关问题更多 >

编程相关推荐

热门问题

热门文章