为数据帧中的每一行获取predict_proba的最大值

def get_predict_proba(row, model): return model.predict_proba(row.values.reshape(1,-1)) df['predicted_category'] = pickle_model.predict(df) df['confidence'] = df.apply(lambda row: get_predict_proba(row, pickle_model), axis=1)

2条回答

网友

1楼 · 编辑于 2024-04-19 13:39:33

我已经通过如下编辑get_predict_proba函数解决了这个问题：

def get_predict_proba(row, model):
y_pred_prob=model.predict_proba(row.values.reshape(1,-1))
ix = y_pred_prob.argmax(1).item()
return (f'{y_pred_prob[0,ix]:.2%}')

我仍然需要关于predict_proba的更深入的信息，以及它如何在具有不平衡类的多类分类器上工作。如果有更有效的方法来解决这个问题，我很乐意看到。谢谢

网友

2楼 · 编辑于 2024-04-19 13:39:33

预测值的第一个“预测概率”

predict_proba返回和数组，其中包含您拥有的每个类的概率，如您所说。当然，此数组的最大值或最大值将对应于预测的类。因此，简单的解决方案是返回predict_proba数组的最大值：

def get_predict_proba(row, model):
return max(model.predict_proba(row.values.reshape(1,-1)))

第二个问题：不平衡班级中的“预测概率”

作为定义，predict_proba是“输入样本的预测类概率计算为森林中树木的平均预测类概率。单个树木的类概率是树叶中同一类样本的分数”

这意味着您正在评估随机森林中每棵树的预测，并由此获得一个概率。如果您的随机林在不平衡类中表现良好，那么这是一个很好的方法

总而言之，我将重点获得一个好的随机林模型，如果它能很好地处理不平衡的类，那么predict_proba将具有代表性。如果随机林不够好，您将不得不使用一些技术来解决不平衡类的问题（例如过采样或欠采样）

预测值的第一个“预测概率”

第二个问题：不平衡班级中的“预测概率”

相关问题更多 >

编程相关推荐

热门问题

热门文章