我使用pandas作为db替换,因为我有多个数据库(oracle、mssql等),并且我无法将命令序列转换为SQL等效命令。
我在数据框中加载了一个表,其中包含一些列:
YEARMONTH, CLIENTCODE, SIZE, .... etc etc
在SQL中,要计算每年不同客户机的数量:
SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;
结果会是
201301 5000
201302 13245
我怎样才能在熊猫身上做到这一点?
Tags:
这里有另一个方法,非常简单,假设您的数据帧名是
daat
,列名是YEARMONTH
有趣的是,通常
len(unique())
比nunique()
快几倍(3x-15x)。我相信这就是你想要的:
示例:
相关问题 更多 >
编程相关推荐