如何使用groupby并与polars一起应用

1条回答

网友

1楼 · 发布于 2024-05-26 07:45:08

从polars>=0.10.4开始，您可以使用pl.spearman_rank_corr函数

如果要使用自定义函数，可以这样做：

多个列/表达式上的自定义函数

import polars as pl
from typing import List
from scipy import stats

df = pl.DataFrame({
    "g": [1, 1, 1, 2, 2, 2, 5],
    "a": [2, 4, 5, 190, 1, 4, 1],
    "b": [1, 3, 2, 1, 43, 3, 1]
})

def get_score(args: List[pl.Series]) -> pl.Series:
    return pl.Series([stats.spearmanr(args[0], args[1]).correlation], dtype=pl.Float64)

(df.groupby("g", maintain_order=True)
 .agg(
    pl.apply(
        exprs=["a", "b"], 
        f=get_score).alias("corr")
 ))

极性提供了功能

(df.groupby("g", maintain_order=True)
 .agg(
     pl.spearman_rank_corr("a", "b").alias("corr")
 ))

两种输出：

shape: (3, 2)
┌─────┬──────┐
│ g   ┆ corr │
│  - ┆  -  │
│ i64 ┆ f64  │
╞═════╪══════╡
│ 1   ┆ 0.5  │
├╌╌╌╌╌┼╌╌╌╌╌╌┤
│ 2   ┆ -1e0 │
├╌╌╌╌╌┼╌╌╌╌╌╌┤
│ 5   ┆ NaN  │
└─────┴──────┘

单个列/表达式上的自定义函数

我们还可以通过.apply或.map对单个表达式应用自定义函数

下面是一个示例，说明如何使用自定义函数和法线极性表达式对列进行平方运算。表达式语法应该是首选，因为它的速度快得多

(df.groupby("g")
 .agg(
     pl.col("a").apply(lambda group: group**2).alias("squared1"),
     (pl.col("a")**2).alias("squared2")
 ))

{}和{}之间有什么区别？

map对整个列series起作用apply根据上下文对单个值或单个组起作用

`select`上下文：

map
- 输入/输出类型：Series
- 输入的语义：一个列值
apply
- 输入/输出类型：Union[int, float, str, bool]
- 输入的语义：列中的单个值

`groupby`上下文：

map
- 输入/输出类型：Series
- 输入的语义：一个列表列，其中的值是组
apply
- 输入/输出类型：Series
- 输入的语义：组

多个列/表达式上的自定义函数

极性提供了功能

单个列/表达式上的自定义函数

{}和{}之间有什么区别？

`select`上下文：

`groupby`上下文：

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用groupby并与polars一起应用

多个列/表达式上的自定义函数

极性提供了功能

单个列/表达式上的自定义函数

{}和{}之间有什么区别？

select上下文：

groupby上下文：

相关问题 更多 >

编程相关推荐

热门问题

热门文章

`select`上下文：

`groupby`上下文：

相关问题更多 >