pandas.groupby通过使用lambda aggfunc和categorical type与obj对同一数据做出不同的反应

import numpy as np def consolidate(d): columns=['country', 'id', 'consolidation_key'] # columns=['id', 'consolidation_key'] return d.groupby(by=columns).agg( plans=pd.NamedAgg( column="plan", aggfunc=lambda s: "-".join(sorted(set(s.astype(str)))) ) ) d = pd.read_excel(r"path\to\file\test_data.xlsx", sheet_name='data') data = d df = consolidate(data) print(df) print("-----------") print("dtypes:") print(data.dtypes) print("--------------------") data2 = d.assign(country=lambda x: pd.Categorical(x["country"])) df2 = consolidate(data2) print(df2) print("-----------") print("dtypes:") print(data2.dtypes)

plans country id consolidation_key AT01 1000 A 100 B 200 2000 J 300 K 200 ----------- dtypes: country object id int64 plan int64 consolidation_key object dtype: object -------------------- plans country id consolidation_key AT01 1000 A 100 B 200 J NaN K NaN 2000 A NaN B NaN J 300 K 200 ----------- dtypes: country category id int64 plan int64 consolidation_key object dtype: object

1条回答

网友

1楼 · 发布于 2024-06-17 15:55:08

通过阅读@jezrael的回答中的帖子，我在https://github.com/pandas-dev/pandas/issues/17594#issuecomment-545238294得到了一条重要的评论

将observed=True添加到groupby解决了我的问题

def consolidate(d):
columns=['country', 'id', 'consolidation_key']
return d.groupby(by=columns, observed=True).agg(
    plans=pd.NamedAgg(
        column="plan", aggfunc=lambda s: "-".join(sorted(set(s.astype(str))))
    )
)

相关问题更多 >

编程相关推荐

热门问题

热门文章