如何通过检查列表中的子级索引值来筛选Pandas数据帧的行?

2024-04-18 19:30:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个示例Pandas数据帧df,它具有多级别索引:

>>> df
                STK_Name   ROIC   mg_r
STK_ID RPT_Date                       
002410 20111231      ???  0.401  0.956
300204 20111231      ???  0.375  0.881
300295 20111231     ????  2.370  0.867
300288 20111231     ????  1.195  0.861
600106 20111231     ????  1.214  0.857
300113 20111231     ????  0.837  0.852

stk_list被定义为stk_list = ['600106','300204','300113']

我想得到df的行,其子级别索引STK_ID的值在stk_list之内。输出如下:

                STK_Name   ROIC   mg_r
STK_ID RPT_Date                       
300204 20111231      ???  0.375  0.881
600106 20111231     ????  1.214  0.857
300113 20111231     ????  0.837  0.852

基本上,我可以通过以下方法实现此示例数据的目标:

df = df.reset_index() ; df[df.STK_ID.isin(stk_list)]

但我的应用程序数据帧中已经有“STK_ID”&;RPT_Date”列,因此reset_index()将导致错误。无论如何,我想直接根据索引而不是列进行筛选。

从中学习:How to filter by sub-level index in Pandas

我尝试df[df.index.map(lambda x: x[0].isin(stk_list))],熊猫0.8.1给出了AttributeError: 'unicode' object has no attribute 'isin'

我的问题是:如果不使用reset_index()&;set_index()方法,我应该如何通过检查列表中的子级索引值来筛选Pandas数据帧的行?


Tags: 数据nameid示例pandasdfdateindex
3条回答

您可以尝试:

df[df.index.map(lambda x: x[0] in stk_list)]

示例:

In : stk_list
Out: ['600106', '300204', '300113']

In : df
Out:
                STK_Name   ROIC   mg_r
STK_ID RPT_Date
002410 20111231      ???  0.401  0.956
300204 20111231      ???  0.375  0.881
300295 20111231     ????  2.370  0.867
300288 20111231     ????  1.195  0.861
600106 20111231     ????  1.214  0.857
300113 20111231     ????  0.837  0.852

In : df[df.index.map(lambda x: x[0] in stk_list)]
Out:
                STK_Name   ROIC   mg_r
STK_ID RPT_Date
300204 20111231      ???  0.375  0.881
600106 20111231     ????  1.214  0.857
300113 20111231     ????  0.837  0.852

^{}中使用level参数怎么样?

In [14]: df
Out[14]: 
            0         1
a 0  0.007288 -0.840392
  1  0.652740  0.597250
b 0 -1.197735  0.822150
  1 -0.242030 -0.655058

In [15]: stk_list = ['a']

In [16]: df.reindex(stk_list, level=0)
Out[16]: 
            0         1
a 0  0.007288 -0.840392
  1  0.652740  0.597250

我去派对已经很晚了,但最容易理解和直观的方法肯定是使用index.levels[n].isin

它的工作原理如下:

>>> stk_list = [600106, 300204, 300113]
>>> df[df.index.levels[0].isin(stk_list)]
                STK_Name   ROIC   mg_r
STK_ID RPT_Date                       
300204 20111231      ???  0.375  0.881
300295 20111231     ????  2.370  0.867
300113 20111231     ????  0.837  0.852

我喜欢这种方法的地方是命令实际上可以像英语句子一样阅读。

在OP中,stk_列表是一个字符串列表。一点列表理解符会处理这个问题:

df[df.index.levels[0].isin([int(i) for i in stk_list])]

相关问题 更多 >