创建一列，该列是数据框中多个列的平均值

ID Q1 Q2 Q3 Q4 Q5 avg_age 1 4 NaN NaN NaN NaN 4 2 5 7 8 NaN NaN 5.5 3 7 1 2 NaN NaN 3.5 4 2 2 3 4 1 2 5 1 3 NaN NaN NaN 2

1. avg_age = s.loc[: , "Q222":"Q229"] avg_age = avg_age.mean(axis=1) s = pd.concat([s, avg_age], axis=1) 2. s['avg_age'] = s[['Q222', 'Q223', 'Q224', 'Q225', 'Q226', 'Q227', 'Q228', 'Q229']].mean(axis=1) 3. avg_age = ['Q222', 'Q223', 'Q224', 'Q225', 'Q226', 'Q227', 'Q228', 'Q229'] s.loc[:, 'avg_age'] = s[avg_age].mean(axis=1)

s['Q222'] = s['Q222'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"], ['2','3','4','5', '6', '7', '8', np.NaN]) s['Q223'] = s['Q223'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"], ['2','3','4','5', '6', '7', '8', np.NaN]) s['Q224'] = s['Q224'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"], ['2','3','4','5', '6', '7', '8', np.NaN]) s['Q225'] = s['Q225'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"], ['2','3','4','5', '6', '7', '8', np.NaN]) s['Q226'] = s['Q226'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"], ['2','3','4','5', '6', '7', '8', np.NaN]) s['Q227'] = s['Q227'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"], ['2','3','4','5', '6', '7', '8', np.NaN]) s['Q228'] = s['Q228'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"], ['2','3','4','5', '6', '7', '8', np.NaN]) s['Q229'] = s['Q229'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"], ['2','3','4','5', '6', '7', '8', np.NaN]) s['Q222'] = s['Q222'].replace(['0-4', '05-11', '12-15', '16-17'], '1') s['Q223'] = s['Q223'].replace(['0-4', '05-11', '12-15', '16-17'], '1') s['Q224'] = s['Q224'].replace(['0-4', '05-11', '12-15', '16-17'], '1') s['Q225'] = s['Q225'].replace(['0-4', '05-11', '12-15', '16-17'], '1') s['Q226'] = s['Q226'].replace(['0-4', '05-11', '12-15', '16-17'], '1') s['Q227'] = s['Q227'].replace(['0-4', '05-11', '12-15', '16-17'], '1') s['Q228'] = s['Q228'].replace(['0-4', '05-11', '12-15', '16-17'], '1') s['Q229'] = s['Q229'].replace(['0-4', '05-11', '12-15', '16-17'], '1')

2条回答

网友

1楼 · 编辑于 2024-06-02 09:12:58

skipna=True

可以使用list comprehension获得平均值，使用mean()获得平均值：

df['ave_age'] = df[[col for col in df.columns if 'Q' in col]].mean(axis = 1,skipna = True)

网友

2楼 · 编辑于 2024-06-02 09:12:58

DataFrame.mean()的默认行为应该满足您的要求

下面是一个示例，显示在列的子集上取平均值并将其放置在新创建的列中：

In[19]: tmp
Out[19]: 
   a  b    c
0  1  2  5.0
1  2  3  6.0
2  3  4  NaN

In[24]: tmp['mean'] = tmp[['b', 'c']].mean(axis=1)

In[25]: tmp
Out[25]: 
   a  b    c  mean
0  1  2  5.0   3.5
1  2  3  6.0   4.5
2  3  4  NaN   4.0

至于你的代码出了什么问题：

s['Q222'] = s['Q222'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"],
                         ['2','3','4','5', '6', '7', '8', np.NaN])

数据帧中没有数值（即2、3、4），而是字符串（'2'、'3'和'4'）。DataFrame.mean()函数将这些字符串视为NaN，因此您将得到NaN作为所有平均值计算的结果

尝试用数字填充你的框架，如下所示：

 s['Q222'] = s['Q222'].replace(['18-24', '25-34','35-44', '45-54','55-64', '65-74', '75 or older', "Don't know"],
                          [2, 3, 4, 5, 6, 7, 8, np.NaN])

相关问题更多 >

编程相关推荐

热门问题

热门文章