pandas.DataFrame - 如何按组重新索引?
我可以在数据框(DF)上应用新的索引吗?特别是对于使用 groupby
进行的分组?也就是说,有没有简单的方法可以做到这一点?通过 groupby
的分组,原始的数据框能否被改变?
更新:我的数据看起来是这样的:
A B C
0 a x 0.903343
1 a z 0.982050
2 g x 0.274823
3 g y 0.334491
4 c z 0.756728
5 f z 0.697841
6 d z 0.505845
7 b z 0.768199
8 b y 0.743012
9 e x 0.697212
我通过 'A' 和 'B' 这两列进行分组,我希望这两列中每一对唯一的值在原始数据框中都有相同的索引值。而且,原始数据框可能很大,我正在尝试找出如何在不低效地创建整个新数据框的情况下进行这样的重新索引。
目前我使用的解决方案是:
df = pd.DataFrame({'A': [random.choice(ascii_lowercase[:5]) for _ in xrange(10)],
'B': [random.choice(['x', 'y']) for _ in xrange(10)],
'C': [random.random() for _ in xrange(10)]})
df['id'] = None
new_df = pd.DataFrame()
for i, (n, g) in enumerate(df.groupby(['A', 'B'])):
g['id'] = i
new_df = new_df.append(g)
new_df.set_index('id', inplace=True)
1 个回答
0
你可以通过pandas里的某些内部功能快速完成这个操作:
首先创建一个测试用的DataFrame:
import pandas as pd
import random
random.seed(1)
df = pd.DataFrame({'A': [random.choice(ascii_lowercase[:5]) for _ in xrange(10)],
'B': [random.choice(['x', 'y']) for _ in xrange(10)],
'C': [random.random() for _ in xrange(10)]})
如果你希望新生成的id和A列、B列的顺序保持一致:
m = pd.MultiIndex.from_arrays((df.A, df.B))
df.index = pd.factorize(pd.lib.fast_zip(m.labels), sort=True)[0]
print df
输出结果是:
A B C
1 a y 0.025446
7 e x 0.541412
6 d y 0.939149
2 b x 0.381204
3 c x 0.216599
4 c y 0.422117
5 d x 0.029041
6 d y 0.221692
1 a y 0.437888
0 a x 0.495812
如果你不在乎新id的顺序:
m = pd.MultiIndex.from_arrays((df.A, df.B))
la, lb = m.labels
df.index = pd.factorize(la*len(lb)+lb)[0]
print df
输出结果是:
A B C
0 a y 0.025446
1 e x 0.541412
2 d y 0.939149
3 b x 0.381204
4 c x 0.216599
5 c y 0.422117
6 d x 0.029041
2 d y 0.221692
0 a y 0.437888
7 a x 0.495812