如何按列分组并计算其他列中的类别数？

years = df['name'].str.slice(start=-5, stop=-1).rename('year') new_df = df['tags'].str.split('|', expand=True).join(years) def count_tags(g): return g.drop(columns=['year']).stack().value_counts() new_df.groupby('year').apply(count_tags)

1条回答

网友

1楼 · 发布于 2024-04-23 23:24:41

用途：

new_df = (df.assign(year=lambda x: x['name'].str[-5:-1])
            .set_index('year')['tags']
            .str.split('|', expand=True)
            .stack()
            .reset_index(name='tags')
            .groupby(['year','tags'])
            .size()
            .reset_index(name='count'))
print (new_df)

   year tags  count
0  1990    A      2
1  1990   AB      2
2  1990   BC      1
3  2000   AB      1
4  2000   BC      1

解释：

对于单行解决方案，首先使用^{}表示带切片的新列
对于索引由year使用^{}
然后用^{}表示数据帧，用^{}表示Series用MultiIndex重塑
对于多索引中的列，添加^{}
列的Last^{}和aggregate^{}，Last^{}

另一种解决方案：

from itertools import chain

tags = df['tags'].str.split('|')

df1 = pd.DataFrame({
    'tags' : list(chain.from_iterable(tags.values.tolist())), 
    'year' : df['name'].str[-5:-1].repeat(tags.str.len())
})

print (df1)
  tags  year
0   AB  1990
1    A  1990
2   BC  1990
3   BC  2000
4   AB  2000
5    A  1990
6   AB  1990

df2 = df1.groupby(['year','tags']).size().reset_index(name='count')
print (df2)
   year tags  count
0  1990    A      2
1  1990   AB      2
2  1990   BC      1
3  2000   AB      1
4  2000   BC      1

解释：

按^{}创建列表
按^{}获取列表的长度
最后^{}列和展开
^{}和聚合size

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何按列分组并计算其他列中的类别数？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >