返回多索引数据帧中满足逻辑索引条件的每个组的最后一行

import numpy as np import pandas as pd from datetime import datetime dates = pd.date_range(start='1/1/2018', end='1/4/2018').to_pydatetime().tolist() * 2 ids = ['z7321', 'z7321', 'z7321', 'z7321', 'b2134', 'b2134', 'b2134', 'b2134'] arrays = [ids, dates] tuples = list(zip(*arrays)) index = pd.MultiIndex.from_tuples(tuples, names=['key', 'date']) df = pd.DataFrame(data=np.random.randn(len(index)), index=index, columns=['change']) print(df) change key date z7321 2018-01-01 -0.701605 2018-01-02 -0.934580 2018-01-03 0.186554 2018-01-04 0.417024 b2134 2018-01-01 0.682699 2018-01-02 -0.913633 2018-01-03 0.330347 2018-01-04 -0.706429

1条回答

网友

1楼 · 发布于 2024-04-26 10:41:07

在我编写玩具示例时，我最终找到了一种获得所需输出的方法。希望这个解决方案对其他人有帮助，或者可以改进

以下内容提供了所需的输出：

df1 = df[df.index.get_level_values(1) <= datetime(2018, 1, 2)].groupby(level='key', as_index=False).nth(-1)
print(df1)

                   change
key   date
z7321 2018-01-02 -0.934580
b2134 2018-01-02 -0.913633

这也适用于第二个索引级别在第一个级别组中不一致的情况：

import numpy as np
import pandas as pd
from datetime import datetime

dates = pd.date_range(start='1/1/2018', end='1/4/2018').to_pydatetime().tolist()
dates += pd.date_range(start='12/29/2017', end='1/1/2018').to_pydatetime().tolist()

ids   = ['z7321', 'z7321', 'z7321', 'z7321', 'b2134', 'b2134', 'b2134', 'b2134']

arrays = [ids, dates]
tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=['key', 'date'])

df = pd.DataFrame(data=np.random.randn(len(index)), index=index, columns=['change'])
print(df)

                    change
key   date
z7321 2018-01-01 -1.420757
      2018-01-02 -0.297835
      2018-01-03  0.693520
      2018-01-04  0.909420
b2134 2017-12-29 -1.577685
      2017-12-30  0.632395
      2017-12-31  1.158273
      2018-01-01 -0.242314


df1 = df[df.index.get_level_values(1) <= datetime(2018, 1, 2)].groupby(level='key', as_index=False).nth(-1)
print(df1)

                    change
key   date
z7321 2018-01-02 -0.297835
b2134 2018-01-01 -0.242314

相关问题更多 >

编程相关推荐

热门问题

热门文章