我有一个非常大的数据帧和一个多索引。我需要将一列传递给C来快速执行操作。对于这个操作,我需要知道multiindex在哪里更改值。因为这是一个大数据帧,所以我不想在python中迭代行或索引。 一个小例子:
import numpy as np
import pandas as pd
a = np.array([['bar', 'one', 0, 0],
['bar', 'two', 1, 2],
['bar', 'one', 2, 4],
['bar', 'two', 3, 6],
['foo', 'one', 4, 8],
['foo', 'two', 5, 10],
['bar', 'one', 6, 12],
['bar', 'two', 7, 14]], dtype=object)
df = pd.DataFrame(a, columns=['ix0', 'ix1', 'cd0', 'cd1'])
df.sort_values(['ix0', 'ix1'], inplace=True)
df.set_index(['ix0', 'ix1'], inplace=True)
数据帧如下所示:
In [7]: df
Out[7]:
cd0 cd1
ix0 ix1
bar one 0 0
one 2 4
one 6 12
two 1 2
two 3 6
two 7 14
foo one 4 8
two 5 10
现在我想要一个数组或列表,显示多索引中的值在哪里变化。例如,整数索引,其中(bar,one)变为(bar,two),(bar,two)变为(foo,one),等等
为了能够构建分层输出,似乎索引中必须存在这些数据。有办法吗?你知道吗
我要查找的示例输出是:[0,3,6,7]。你知道吗
谢谢
您可以将
np.unique
与return_index=True
一起使用:相关问题 更多 >
编程相关推荐