这是我的数据集:
Unique_ID No_of_Filings Req_1 Req_2 Req_3 Req_4
RCONF045 3 Blue Red White Violet
RCONF046 3 Blue Red White Brown
RCONF047 3 Blue Red White Brown
RCONF048 3 Black Yellow Green N/A
RCONF051 4 Black Yellow Green N/A
RCONF052 4 Black Brown Green Orange
我从最后4列(Req_1到Req_4)提取了唯一的值,方法如下:
^{pr2}$这是我需要的输出。频率=它在最后四列中显示的次数(例如黄色只显示两次)和备案数量=总和(如果要求在该行中,则无申请数)。例如,蓝色在前三行,所以是3+3+3=9,棕色在第二、第三和第六行,所以是3+3+4=10
Requirements Frequency Number of Filings
Blue 3 9
Black 3 11
Red 3 9
Brown 3 10
White 3 9
Green 3 11
Yellow 2 7
N/A 2 7
Violet 1 3
Orange 1 4
如何使用pandas在上面新创建的数据框中创建这两个列?在
谢谢
请注意,您可以使用
np.unique
立即获得uniques的计数(这已经完成了您的一个目标)。在您可以使用
agg
沿着这些思路做一些事情,但这需要事先进行一些重新塑造。这里有一种方法:相关问题 更多 >
编程相关推荐