增加Pandas数据帧插补性能

freq_val = pd.Series(mode(df.ix[:,6:])[0][0], df.ix[:,6:].columns.values) #most frequent value per column, starting from the first SNP column (second row of 'mode'gives actual frequencies) df_imputed = df.ix[:,6:].fillna(freq_val) #impute unknown SNP values with most frequent value of respective columns

2条回答

网友

1楼 · 编辑于 2024-05-28 23:39:55

试试这个：

df_imputed = df.iloc[:, 6:].fillna(df.iloc[:, 6:].apply(lambda x: x.mode()).iloc[0])

网友

2楼 · 编辑于 2024-05-28 23:39:55

我尝试了不同的方法。关键的学习是mode函数非常慢。或者，我使用np.unique（return_counts=True）和np.bincount实现了相同的功能。后者的速度应该更快，但它不适用于NaN值。在

优化后的代码现在需要28秒才能运行。MaxU的答案需要48秒才能完成。在

代码：

iter = range(np.shape(df.ix[:,6:])[1])
freq_val = np.zeros(np.shape(df.ix[:,6:])[1])
for i in iter:
    _, count = np.unique(df.ix[:,i+6], return_counts=True)
    freq_val[i] = count.argmax()
freq_val_series =  pd.Series(freq_val, df.ix[:,6:].columns.values) 
df_imputed = df.ix[:,6:].fillna(freq_val_series)

感谢您的输入！在

相关问题更多 >

编程相关推荐

热门问题

热门文章