计算不存在值的频率

import pandas as pd import pyreadstat df, meta = pyreadstat.read_sav('df_test.sav') questions = ['q1', 'q2', 'q3'] df_m = df.melt(value_vars=questions, var_name='question', id_vars=['yearmonth','grp']).dropna() df_m.groupby(['yearmonth', 'grp', 'question', 'value']).agg({'value': 'count'})

value yearmonth grp question value 2020-08 Grp1 q1 1.0 1 q2 1.0 1 q3 1.0 1 2020-09 Grp1 q1 1.0 50 2.0 4 4.0 3 q2 1.0 42 2.0 12 q3 1.0 52 2.0 2 Grp2 q1 1.0 98 3.0 2 4.0 1 q2 1.0 89 2.0 6 q3 1.0 86 2.0 9

value yearmonth grp question value 2020-08 Grp1 q1 1.0 1 q1 2.0 0 q1 3.0 0 q1 4.0 0 q1 5.0 0 .................................... .................................... .................................... q3 1.0 86 2.0 9 3.0 0

{'value': {('2020-08', 'Grp1', 'q1', 1.0): 1, ('2020-08', 'Grp1', 'q2', 1.0): 1, ('2020-08', 'Grp1', 'q3', 1.0): 1, ('2020-09', 'Grp1', 'q1', 1.0): 50, ('2020-09', 'Grp1', 'q1', 2.0): 4, ('2020-09', 'Grp1', 'q1', 4.0): 3, ('2020-09', 'Grp1', 'q2', 1.0): 42, ('2020-09', 'Grp1', 'q2', 2.0): 12, ('2020-09', 'Grp1', 'q3', 1.0): 52, ('2020-09', 'Grp1', 'q3', 2.0): 2, ('2020-09', 'Grp2', 'q1', 1.0): 98, ('2020-09', 'Grp2', 'q1', 3.0): 2, ('2020-09', 'Grp2', 'q1', 4.0): 1, ('2020-09', 'Grp2', 'q2', 1.0): 89, ('2020-09', 'Grp2', 'q2', 2.0): 6, ('2020-09', 'Grp2', 'q3', 1.0): 86, ('2020-09', 'Grp2', 'q3', 2.0): 9}}

2条回答

网友

1楼 · 编辑于 2024-06-08 09:14:35

让我们试试reindex：

(a['value'].unstack(level=(2,3), fill_value=0)
     .reindex([(k,x) for k,v in meta.items() for x in v], axis=1, fill_value=0)
     .stack(level=(0,1))
     .to_frame(name='value')
)

其中a是df_m.groupby(...).agg(...)。输出：

                     value
2020-08 Grp1 q1 1.0    1.0
                2.0    0.0
                3.0    0.0
                4.0    0.0
                5.0    0.0
             q2 1.0    1.0
                2.0    0.0
                3.0    0.0
                4.0    0.0
                5.0    0.0
             q3 1.0    1.0
                2.0    0.0
                3.0    0.0
2020-09 Grp1 q1 1.0   50.0
                2.0    4.0
                3.0    0.0
                4.0    3.0
                5.0    0.0
             q2 1.0   42.0
                2.0   12.0
                3.0    0.0
                4.0    0.0
                5.0    0.0
             q3 1.0   52.0
                2.0    2.0
                3.0    0.0
        Grp2 q1 1.0   98.0
                2.0    0.0
                3.0    2.0
                4.0    1.0
                5.0    0.0
             q2 1.0   89.0
                2.0    6.0
                3.0    0.0
                4.0    0.0
                5.0    0.0
             q3 1.0   86.0
                2.0    9.0
                3.0    0.0

网友

2楼 · 编辑于 2024-06-08 09:14:35

如果您已经有了字典，您可以像搜索未遇到的键一样简单，为其指定默认值或将字典从集合库强制转换为defaultdict

例如

dict_grouped_by = df_m.groupby(['yearmonth', 'grp', 'question', 'value']).agg({'value': 'count'}).to_dict()
val_count = dict_grouped_by['value']

默认值

val_count.get(('2020-09', 'Grp2', 'q3', 3.0), 0) # returns 0

使用defaultdict

from collections import defaultdict
def_dict = defaultdict(int, val_count)
def_dict[('2020-09', 'Grp2', 'q3', 3.0)] # returns 0

相关问题更多 >

编程相关推荐

热门问题

热门文章