基于条件切片的Pandas数据帧中单元的改变

1条回答

网友

1楼 · 发布于 2024-04-25 11:37:55

在这段线路上

train.loc[:,['Pclass']==1]

部件['Pclass'] == 1将列表['Pclass']与返回False的值1进行比较。然后，.loc[]被计算为导致错误的.loc[:,False]。在

我想你的意思是：

^{pr2}$

它选择Pclass为1的所有行。这修复了错误，但仍将提供“SettingWithCopyWarning”。在

编辑1

（删除旧代码）

这里有一个方法，它使用groupby和transform来创建Series 包含每个Pclass的中值Age。然后使用Series作为fillna()的参数，用中值替换丢失的值。使用这种方法将同时纠正所有乘客等级，这正是OP最初要求的。答案来自于Python-pandas Replace NA with the median or mean of a group in dataframe

import pandas as pd
from io import StringIO

tbl = """PassengerId Pclass  Age
0   1   3   22
1   2   1   35
2   3   3   26
3   4   1   35
4   5   3   35
5   6   1
6   7   1   54
7   8   3   2
8   9   3   27
9   10  2   14
10  11  1
"""

train = pd.read_table(StringIO(tbl), sep='\s+')
print('Original:\n', train)
median_age = train.groupby('Pclass')['Age'].transform('median') #median Ages for all groups
train['Age'].fillna(median_age, inplace=True)
print('\nNaNs replaced with median:\n', train)

代码产生：

 Original:
     PassengerId  Pclass   Age
0             1       3  22.0
1             2       1  35.0
2             3       3  26.0
3             4       1  35.0
4             5       3  35.0
5             6       1   NaN
6             7       1  54.0
7             8       3   2.0
8             9       3  27.0
9            10       2  14.0
10           11       1   NaN

NaNs replaced with median:
     PassengerId  Pclass   Age
0             1       3  22.0
1             2       1  35.0
2             3       3  26.0
3             4       1  35.0
4             5       3  35.0
5             6       1  35.0
6             7       1  54.0
7             8       3   2.0
8             9       3  27.0
9            10       2  14.0
10           11       1  35.0

需要注意的是，这行代码使用inplace=True：

train['Age'].fillna(median_age, inplace=True)

可以使用.loc替换为赋值：

train.loc[:,'Age'] = train['Age'].fillna(median_age)

相关问题更多 >

编程相关推荐

热门问题

热门文章

基于条件切片的Pandas数据帧中单元的改变

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >