numpy.where() 处理三个或更多条件

5 投票

2 回答

693 浏览

提问于 2025-04-18 00:42

我有一个数据表，里面有很多列。

      AC     BC     CC      DC     MyColumn

我想添加一个新列叫"MyColumn"，这个列的值是这样的：如果B、C和D这三列的值都小于A列的值，那么就取这三列中的最大值。如果只有C和D小于A，那就取C和D中的最大值，依此类推。如果这三列都不小于A，那么"MyColumn"就直接等于A的值。

我该怎么用numpy的where()函数来实现这个呢？

数据处理 numpy 数据分析列操作最大值计算条件选择

2 个回答

你可以使用lt方法和where一起使用：

In [11]: df = pd.DataFrame(np.random.randn(5, 4), columns=list('ABCD'))

In [12]: df
Out[12]:
          A         B         C         D
0  1.587878 -2.189620  0.631958 -0.432253
1 -1.636721  0.568846 -0.033618 -0.648406
2  1.567512  1.089788  0.489559  1.673372
3  0.589222 -1.176961 -1.186171  0.249795
4  0.366227  1.830107 -1.074298 -1.882093

注意：你可以对某些列的最大值进行操作：

In [13]: df[['B', 'C', 'D']].max(1)
Out[13]:
0    0.631958
1    0.568846
2    1.673372
3    0.249795
4    1.830107
dtype: float64

查看每一列的值，看看它们是否小于A：

In [14]: lt_A = df.lt(df['A'], axis=0)

In [15]: lt_A
Out[15]:
       A      B      C      D
0  False   True   True   True
1  False  False  False  False
2  False   True   True  False
3  False   True   True   True
4  False  False   True   True

In [15]: lt_A[['B', 'C', 'D']].all(1)
Out[15]:
0     True
1    False
2    False
3     True
4    False
dtype: bool

现在，你可以使用all来构建你想要的结果：

In [16]: df[['B', 'C', 'D']].max(1).where(lt_A[['B', 'C', 'D']].all(1), 2)
Out[16]:
0    0.631958
1    2.000000
2    2.000000
3    0.249795
4    2.000000
dtype: float64

你可以先插入Series（在这个例子中，它恰好是相同的）：

In [17]: df[['C', 'D']].max(1).where(lt_A[['C', 'D']].all(1), 2)
Out[17]:
0    0.631958
1    2.000000
2    2.000000
3    0.249795
4   -1.074298
dtype: float64

然后再插入A列：

In [18]: df[['B', 'C', 'D']].max(1).where(lt_A[['B', 'C', 'D']].all(1), df[['C', 'D']].max(1).where(lt_A[['C', 'D']].all(1), df['A']))
Out[18]:
0    0.631958
1   -1.636721
2    1.567512
3    0.249795
4   -1.074298
dtype: float64

显然，如果你打算重复使用这些代码，最好把它写成一个函数！

回答于 2025-04-18 由 Python大师

分享举报

我的理解是，你需要找出所有比第一列小的列中的最大值。如果没有这样的列，就用第一列的值作为备用；如果是这样的话：

>>> df
          A         B         C         D
0  1.587878 -2.189620  0.631958 -0.432253
1 -1.636721  0.568846 -0.033618 -0.648406
2  1.567512  1.089788  0.489559  1.673372
3  0.589222 -1.176961 -1.186171  0.249795
4  0.366227  1.830107 -1.074298 -1.882093

[5 rows x 4 columns]
>>> df[df.lt(df.A, axis=0)].max(axis=1).fillna(df.A)
0    0.631958
1   -1.636721
2    1.089788
3    0.249795
4   -1.074298
dtype: float64

回答于 2025-04-18 由 Python大师

分享举报

numpy.where() 处理三个或更多条件

2 个回答

撰写回答