列中多个值的分组依据

+----------------+-------+ | class | year | +----------------+-------+ | ['A', 'B'] | 2001 | | ['A'] | 2002 | | ['B'] | 2001 | | ['A', 'B', 'C']| 2003 | | ['B', 'C'] | 2001 | | ['C'] | 2003 | +----------------+-------+

1条回答

网友

1楼 · 发布于 2024-04-20 10:45:41

试试unnesting

s=unnesting(df,['class'])

然后，我们做crosstab

pd.crosstab(s['year'],s['class'])

来自sklearn的方法

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
pd.DataFrame(mlb.fit_transform(df['class']),columns=mlb.classes_, index=df.year).sum(level=0)
Out[293]: 
      A  B  C
year         
2001  2  2  1
2002  1  1  1
2003  0  1  1

get_dummies方法

df.set_index('year')['class'].apply(','.join).str.get_dummies(sep=',').sum(level=0)
Out[297]: 
      A  B  C
year         
2001  2  2  1
2002  1  1  1
2003  0  1  1

def unnesting(df, explode):
    idx = df.index.repeat(df[explode[0]].str.len())
    df1 = pd.concat([
        pd.DataFrame({x: np.concatenate(df[x].values)}) for x in explode], axis=1)
    df1.index = idx

    return df1.join(df.drop(explode, 1), how='left')

相关问题更多 >

编程相关推荐

热门问题

热门文章

列中多个值的分组依据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >