Polars DataFrame在Python中使用mask替换，mask也是一个Polars DataFrame

Question

如何用另一个布尔掩码来改变变量（或重新创建）数据框（DataFrame）？这里不是说单独的列向量（Series），而是两个数据框。

比如说，把所有金额大于270的地方都设置成1000，最后的值就会变成1000。

输入：

            apples[0].amount  apples[1].amount...  apples[3].amount  apples[4].amount
    0                  NaN       321.68012  ...             NaN             NaN
    1                  NaN             NaN  ...             NaN       259.70487
    2                  NaN             NaN  ...             NaN       259.70487
    3                  NaN             NaN  ...             NaN       259.70487
    4                  NaN             NaN  ...             NaN       259.70487
    ...                ...             ...  ...             ...             ...
    440582        79.57273             NaN  ...             NaN             NaN
    440583             NaN             NaN  ...             NaN             NaN
    440584             NaN             NaN  ...             NaN             NaN
    440585             NaN             NaN  ...             NaN             NaN
    440586             NaN             NaN  ...       299.91544             NaN


    [440587 rows x 5 columns]

期望的输出：

            apples[0].amount  apples[1].amount...  apples[3].amount  apples[4].amount
    0                  NaN       1000.00000 ...             NaN             NaN
    1                  NaN             NaN  ...             NaN       259.70487
    2                  NaN             NaN  ...             NaN       259.70487
    3                  NaN             NaN  ...             NaN       259.70487
    4                  NaN             NaN  ...             NaN       259.70487
    ...                ...             ...  ...             ...             ...
    440582        79.57273             NaN  ...             NaN             NaN
    440583             NaN             NaN  ...             NaN             NaN
    440584             NaN             NaN  ...             NaN             NaN
    440585             NaN             NaN  ...             NaN             NaN
    440586             NaN             NaN  ...       1000.00000            NaN


    [440587 rows x 5 columns]

另一个例子： cum_sum_volume_apples 的输入：

        apples[0].amount  apples[1].amount  ...  apples[3].amount  apples[4].amount
0            321.66164      1322.18012  ...      1581.98712      1683.34388
1            321.66164       574.39164  ...       849.15207      1260.20487
2            321.66164       574.39164  ...       849.15207      1260.20487
3            321.66164       574.39164  ...       849.15207      1260.20487
4            321.66164       574.39164  ...       849.15207      1260.20487
...                ...             ...  ...             ...             ...
440582      1080.07273      1089.38273  ...      3248.32543      3266.94847
440583         9.06278        26.69990  ...      1107.99783      1117.30783
440584       346.34516       363.98228  ...      1445.28021      1454.59021
440585       346.34516       363.98228  ...       882.09418       891.40418
440586       426.89556       773.24072  ...      1300.41544      1308.98974

[440587 rows x 5 columns]

at_or_above_threshold_mask ~1000

        apples[0].amount  apples[1].amount  ...  apples[3].amount  apples[4].amount
0                False            True  ...           False           False
1                False           False  ...           False            True
2                False           False  ...           False            True
3                False           False  ...           False            True
4                False           False  ...           False            True
...                ...             ...  ...             ...             ...
440582            True           False  ...           False           False
440583           False           False  ...           False           False
440584           False           False  ...           False           False
440585           False           False  ...           False           False
440586           False           False  ...            True           False

[440587 rows x 5 columns]

如何仅在另一个具有相同行列长度的数据框上，使用 at_threshold_mask 来过滤出真实值？（一个示例可以是对上面已有的 cum_sum_volume_apples 应用掩码）

cum_sum_all = pl.cum_sum_horizontal("*")
at_or_above_threshold_boolean_cum_sum = (
        (cum_sum_volume_apples >= volume_threshold).select(cum_sum_all).unnest("cum_sum")
    )
at_or_above_threshold_mask = at_or_above_threshold_boolean_cum_sum >= 1
at_threshold_mask = at_or_above_threshold_boolean_cum_sum == 1

dataframe polars data transformation data manipulation mask boolean filtering thresholding cumulative sum

Polars DataFrame在Python中使用mask替换，mask也是一个Polars DataFrame

2 个回答

撰写回答