数据帧按特定值分组

+----------+-------+ | Name | Count | +----------+-------+ | 'andrew' | 3 | | 'bob' | 1 | | 'tom' | 2 | | 'john' | 1 | | 'bill' | 2 | | 'jason' | 1 | +----------+-------+

3条回答

网友

1楼 · 编辑于 2024-04-19 23:19:19

您可以从每一行创建一个集合，然后重塑为垂直数据堆栈并获取值计数。你知道吗

import pandas as pd

df = pd.DataFrame({'Owner': ['andrew', 'andrew', 'andrew'],
 'Seller': ['bob', 'andrew', 'bill'],
 'Mediator': ['tom', 'bill', 'bill'],
 'Buyer': ['john', 'jason', 'tom']}
)

cnt = (
    df.apply(lambda r: pd.Series(list(set(r))), axis=1)
      .stack()
      .value_counts()
      .reset_index().rename(columns={'index': 'Name', 0: 'Count'})
)
cnt
# returns:
     Name  Count
0  andrew      3
1    bill      2
2     tom      2
3   jason      1
4    john      1
5     bob      1

网友

2楼 · 编辑于 2024-04-19 23:19:19

具有“unique（）”的解决方案：

df.apply(lambda row: row.unique(),axis=1) \
  .explode().value_counts() \
  .to_frame(name="Count")  \
  .rename_axis(["Name"])      

        Count
Name         
andrew      3
bill        2
tom         2
john        1
bob         1
jason       1

网友

3楼 · 编辑于 2024-04-19 23:19:19

您可以使用unstack()来：

将所有名称放在一列中
分组依据Name和计数unique original-index，即level_1之后的unstack()和reset_index()：

    (df.unstack()
       .reset_index(name='Name')
       .groupby('Name') 
       .level_1 
       .nunique() 
       .rename('Count') 
       .reset_index())

    #Out[xx]:
    #     Name  Count
    #0  andrew      3
    #1    bill      2
    #2     bob      1
    #3   jason      1
    #4    john      1
    #5     tom      2

相关问题更多 >

编程相关推荐

热门问题

热门文章

数据帧按特定值分组

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >