对Pandas中的行和列多索引使用布尔索引

import numpy as np import pandas as pd from itertools import product np.random.seed(1) team_names = ['Yankees', 'Mets', 'Dodgers'] jersey_numbers = [35, 71, 84] game_numbers = [1, 2] observer_names = ['Bill', 'John', 'Ralph'] observation_types = ['Speed', 'Strength'] row_indices = list(product(team_names, jersey_numbers, game_numbers, observer_names, observation_types)) observation_values = np.random.randn(len(row_indices)) tns, jns, gns, ons, ots = zip(*row_indices) data = pd.DataFrame({'team': tns, 'jersey': jns, 'game': gns, 'observer': ons, 'obstype': ots, 'value': observation_values}) data = data.set_index(['team', 'jersey', 'game', 'observer', 'obstype']) data = data.unstack(['observer', 'obstype']) data.columns = data.columns.droplevel(0)

3条回答

网友

1楼 · 编辑于 2024-05-13 07:39:32

注意：自从Pandas v0.20以来，ix访问器已被弃用；请适当使用loc或{}。在

如果我正确地理解了这个问题，这很简单：

要得到拉尔夫的专栏：

data.ix[:,"Ralph"]

要得到其中两个的答案，请输入一个列表：

^{pr2}$

ix运算符是幂指数运算符。请记住，第一个参数是行，然后是列（与data[..][..]相反，后者正好相反）。冒号充当通配符，因此它返回axis=0中的所有行。在

一般来说，要在多索引中查找，应该传入一个元组。e、 g

data.[:,("Ralph","Speed")]

但是如果只传入一个元素，它将把它视为传入元组的第一个元素，然后传入通配符。在

比较棘手的是，如果要访问不是0级索引的列。例如，获取“速度”的所有列。那你就得多点创意了。。将index/column的get_level_values方法与布尔索引结合使用：

例如，这将在行中获取jersey 71，在列中获取strength：

data.ix[data.index.get_level_values("jersey") == 71 , \
        data.columns.get_level_values("obstype") == "Strength"]

网友

2楼 · 编辑于 2024-05-13 07:39:32

从Pandas 0.18（可能更早）开始，您可以使用pd.IndexSlice轻松地对多索引数据帧进行切片。在

对于您的特定问题，您可以使用以下选项按团队、球衣和比赛进行选择：

data.loc[pd.IndexSlice[:,[71, 84],:],:] #IndexSlice on the rows

indexlice只需要足够的级别信息，就可以去掉后面的冒号：

^{pr2}$

同样，您可以对列进行索引：

data.loc[pd.IndexSlice[:,[71, 84]],pd.IndexSlice[['John', 'Ralph']]]

这给了你问题的最后一个数据帧。在

网友

3楼 · 编辑于 2024-05-13 07:39:32

这里有一种方法，它使用稍微更内置的感觉语法。但还是很笨重：

data.loc[
    (data.index.get_level_values('jersey').isin([71, 84])
     & data.index.get_level_values('team').isin(['Dodgers', 'Mets'])), 
    data.columns.get_level_values('observer').isin(['John', 'Ralph'])
]

所以比较一下：

^{pr2}$

结果：

1000 loops, best of 3: 395 µs per loop
1000 loops, best of 3: 409 µs per loop

comparison_of_methods

仍然希望有一个更干净或更规范的方法来做到这一点。在

相关问题更多 >

编程相关推荐

热门问题

热门文章