Pandas：平衡

d = {'class':['c1','c2','c1','c1','c2','c1','c1','c2','c3','c3'], 'val': [1,2,1,1,2,1,1,2,3,3] } df = pd.DataFrame(d) class val 0 c1 1 1 c2 2 2 c1 1 3 c1 1 4 c2 2 5 c1 1 6 c1 1 7 c2 2 8 c3 3 9 c3 3 df['class'].value_counts() c1 5 c2 3 c3 2 Name: class, dtype: int64 g = df.groupby('class') g.apply(lambda x: x.sample(g.size().min())) class val class c1 6 c1 1 5 c1 1 c2 4 c2 2 1 c2 2 c3 9 c3 3 8 c3 3

3条回答

网友

1楼 · 编辑于 2024-06-06 16:59:46

这个方法随机得到每个类的k个元素。

def sampling_k_elements(group, k=3):
    if len(group) < k:
        return group
    return group.sample(k)

balanced = df.groupby('class').apply(sampling_k_elements).reset_index(drop=True)

网友

2楼 · 编辑于 2024-06-06 16:59:46

g = df.groupby('class')
g.apply(lambda x: x.sample(g.size().min()).reset_index(drop=True)

  class  val
0    c1    1
1    c1    1
2    c2    2
3    c2    2
4    c3    3
5    c3    3

后续问题的答案

lambda中的x最终成为一个数据帧，它是由组表示的df的子集。每个数据帧（每组一个）都通过这个lambda。
g是groupby对象。我把它放在一个命名变量中，因为我计划使用它两次。df.groupby('class').size()是df['class'].value_counts()的另一种方法，但是由于我要groupby无论如何，我也可以重用相同的groupby，使用size获取值计数。。。节省时间。
这些数字是df中与采样一起的索引值。我加了reset_index(drop=True)来摆脱它。

网友

3楼 · 编辑于 2024-06-06 16:59:46

上面的答案是正确的，但我想指定上面的g不是用户最希望的Pandas DataFrame对象。它是一个对象。若要查看此信息，请尝试在g上调用head，结果如下所示。

import pandas as pd
d = {'class':['c1','c2','c1','c1','c2','c1','c1','c2','c3','c3'],
     'val': [1,2,1,1,2,1,1,2,3,3]
    }

d = pd.DataFrame(d)
g = d.groupby('class')
g.apply(lambda x: x.sample(g.size().min()).reset_index(drop=True))
g.head()
>>> class val
0    c1    1
1    c2    2
2    c1    1
3    c1    1
4    c2    2
5    c1    1
6    c1    1
7    c2    2
8    c3    3
9    c3    3

要解决这个问题，我们需要在按如下方式分组数据后将g转换为Pandas DataFrame：

g = d.groupby('class')
g = pd.DataFrame(g.apply(lambda x: x.sample(g.size().min()).reset_index(drop=True)))

现在呼叫负责人会得到：

g.head()

>>>class val
0   c1   1
1   c2   2
2   c1   1
3   c1   1
4   c2   2

这很可能是用户想要的。

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas：平衡

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >