我刚从熊猫开始,我想知道如何计算每个公司每年的文档数量(唯一的)
我的数据是: 测向
year document_id company
0 1999 3 Orange
1 1999 5 Orange
2 1999 3 Orange
3 2001 41 Banana
4 2001 21 Strawberry
5 2001 18 Strawberry
6 2002 44 Orange
最后,我希望有一个像这样的新数据帧
^{pr2}$我试过了:
count2 = apyData.groupby(['year','company']).agg({'document_id': pd.Series.value_counts})
但是使用groupby
操作,我不能有这种结构和计算1999年橙色的唯一值,有没有办法做到这一点?在
泰铢
这将产生所需的输出:
您可以创建一个新的
DataFrame
,并使用list comprension
添加唯一的document_id
,如下所示:现在您已经有了一个unique
^{pr2}$document_id
的列表,您只需要获得该列表的长度:获得:
相关问题 更多 >
编程相关推荐