基于另一属性的概率填充缺失值

road_values_jan = np.random.choice(["Frost/Ice", "Wet/Damp"], random_data["Road_Surface_Conditions"][random_data['Date_Month'].isin(["01"])].isnull().sum(), p=[0.25, 0.75]) # which outputs: array(['Wet/Damp', 'Frost/Ice'], dtype='<U9')

random_data["Road_Surface_Conditions"][random_data['Date_Month'].isin(["01"])] = random_data["Road_Surface_Conditions"][random_data['Date_Month'].isin(["01"])].fillna(pandas.Series(road_values_jan, index=random_data.index))

Weather_Conditions,Road_Surface_Conditions,Date_Month Fine without high winds,NaN,9 Fine without high winds,NaN,1 Raining without high winds,Wet/Damp,6 Fine without high winds,Wet/Damp,1 Fine without high winds,NaN,2 Fine without high winds,NaN,1 Raining without high winds,Wet/Damp,7 Raining without high winds,Wet/Damp,1

1条回答

网友

1楼 · 发布于 2024-04-25 09:18:46

如果我理解正确，您可以首先创建一个分布为25:75的数组，其大小与NaN值相同，然后选择Road_Surface_Conditions列中的NaN行，并用创建的数组填充它们：

m = (df['Road_Surface_Conditions'].isnull() & df['Date_Month'].eq(1)).sum()

s = np.random.choice(['Frost/Ice', 'Wet/Damp'],
                     p=[0.25, 0.75], 
                     size = m)
print(s)
['Wet/Damp' 'Frost/Ice']

df.loc[df['Road_Surface_Conditions'].isnull() & df['Date_Month'].eq(1), 
       'Road_Surface_Conditions'] = s

print(df)
           Weather_Conditions Road_Surface_Conditions  Date_Month
0     Fine without high winds                     NaN           9
1     Fine without high winds                Wet/Damp           1
2  Raining without high winds                Wet/Damp           6
3     Fine without high winds                Wet/Damp           1
4     Fine without high winds                     NaN           2
5     Fine without high winds               Frost/Ice           1
6  Raining without high winds                Wet/Damp           7
7  Raining without high winds                Wet/Damp           1

注意我的数据帧被称为df，而不是random_data

相关问题更多 >

编程相关推荐

热门问题

热门文章