大Pandas：如何计算来自其他地方的种群百分比

DATE REGION AGEGROUP SEX BRAND DOSE COUNT 0 2020-12-28 Brussels 18-34 F Pfizer-BioNTech A 1 1 2020-12-28 Brussels 45-54 F Pfizer-BioNTech A 2 2 2020-12-28 Brussels 55-64 F Pfizer-BioNTech A 3 3 2020-12-28 Brussels 55-64 M Pfizer-BioNTech A 1 4 2020-12-28 Brussels 65-74 F Pfizer-BioNTech A 2

COUNT REGION DATE Brussels 2020-12-28 56 2020-12-30 5 2021-01-05 725 2021-01-06 989 2021-01-07 994 ... ... Wallonia 2021-06-18 49567 2021-06-19 43577 2021-06-20 2730 2021-06-21 37193 2021-06-22 16938

2条回答

网友

1楼 · 编辑于 2024-05-14 18:11:24

您可以在groupby上运行reset_index()，然后在执行计算的自定义函数上运行df.apply：

import pandas as pd

df = pd.read_csv('https://epistat.sciensano.be/Data/COVID19BE_VACC.csv', parse_dates=['DATE'])
df = df.groupby(['REGION','DATE']).sum().reset_index()

def calculate(row):
    if row['REGION'] == 'Flanders':
        return row['COUNT'] / 6629143
    elif row['REGION'] == 'Wallonia':
        return row['COUNT'] / 3645243
    elif row['REGION'] == 'Brussels':
        return row['COUNT'] / 1218255
    
df['REL_COUNT'] = df.apply(calculate, axis=1) #axis=1 takes the rows as input, axis=0 would run on columns

输出df.head()：

^{tb1}$

网友

2楼 · 编辑于 2024-05-14 18:11:24

一种选择是用^{}+^{}重新格式化population_df：

population_df = pd.DataFrame({
    'REGION': {0: 'Flanders', 1: 'Wallonia', 2: 'Brussels'},
    'POP': {0: 6629143, 1: 3645243, 2: 1218255}
})

denom = population_df.set_index('REGION').rename(columns={'POP': 'COUNT'})

denom：

            COUNT
REGION           
Flanders  6629143
Wallonia  3645243
Brussels  1218255

然后^{}相对于level=0的groupby sum的结果：

new_df = df.groupby(['REGION', 'DATE']).agg({'COUNT': 'sum'}).div(denom, level=0)

new_df：

                        COUNT
REGION   DATE                
Brussels 2020-12-28  0.000046
         2020-12-30  0.000004
         2021-01-05  0.000595
         2021-01-06  0.000812
         2021-01-07  0.000816
...                       ...
Wallonia 2021-06-18  0.013598
         2021-06-19  0.011954
         2021-06-20  0.000749
         2021-06-21  0.010203
         2021-06-22  0.004647

或作为新专栏：

new_df = df.groupby(['REGION', 'DATE']).agg({'COUNT': 'sum'})
new_df['NEW'] = new_df.div(denom, level=0)

new_df：

                     COUNT       NEW
REGION   DATE                       
Brussels 2020-12-28     56  0.000046
         2020-12-30      5  0.000004
         2021-01-05    725  0.000595
         2021-01-06    989  0.000812
         2021-01-07    994  0.000816
...                    ...       ...
Wallonia 2021-06-18  49567  0.013598
         2021-06-19  43577  0.011954
         2021-06-20   2730  0.000749
         2021-06-21  37193  0.010203
         2021-06-22  16938  0.004647

相关问题更多 >

编程相关推荐

热门问题

热门文章