如何通过键访问pandas groupby的子数据框
我该如何通过键访问groupby对象中的对应数据框?
假设我有以下的groupby:
rand = np.random.RandomState(1)
df = pd.DataFrame({'A': ['foo', 'bar'] * 3,
'B': rand.randn(6),
'C': rand.randint(0, 20, 6)})
gb = df.groupby(['A'])
我可以通过遍历它来获取键和组:
In [11]: for k, gp in gb:
print 'key=' + str(k)
print gp
key=bar
A B C
1 bar -0.611756 18
3 bar -1.072969 10
5 bar -2.301539 18
key=foo
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
我想通过键来访问某个组:
In [12]: gb['foo']
Out[12]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
但是当我尝试用 gb[('foo',)]
来做这件事时,我得到的是一个奇怪的 pandas.core.groupby.DataFrameGroupBy
对象,这个东西似乎没有我想要的数据框的方法。
我能想到的最好办法是:
In [13]: def gb_df_key(gb, key, orig_df):
ix = gb.indices[key]
return orig_df.ix[ix]
gb_df_key(gb, 'foo', df)
Out[13]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
但考虑到pandas通常在这些事情上做得很好,这种方法有点麻烦。
有没有什么内置的方法可以做到这一点?
6 个回答
28
与其这样做
gb.get_group('foo')
我更喜欢使用 gb.groups
df.loc[gb.groups['foo']]
因为这样你可以选择多个列。例如:
df.loc[gb.groups['foo'],('A','B')]
88
Wes McKinney(pandas的作者)在《Python数据分析》这本书中提供了以下的方法:
groups = dict(list(gb))
这个方法会返回一个字典,这个字典的键是你的分组标签,而值是数据框(DataFrame),也就是说:
groups['foo']
这样做会得到你想要的结果:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
281
你可以使用 get_group
这个方法来获取特定组的数据:
In [21]: gb.get_group('foo')
Out[21]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
注意:这个方法不需要为每个组创建一个中间的字典或每个子数据框的副本,所以在内存使用上会比用 dict(iter(gb))
创建简单字典要高效得多。这是因为它使用了已经在 groupby 对象中可用的数据结构。
你可以通过 groupby 切片来选择不同的列:
In [22]: gb[["A", "B"]].get_group("foo")
Out[22]:
A B
0 foo 1.624345
2 foo -0.528172
4 foo 0.865408
In [23]: gb["C"].get_group("foo")
Out[23]:
0 5
2 11
4 14
Name: C, dtype: int64