计算多标签分类问题的ROC曲线、分类报告和混淆矩阵

mlb = MultiLabelBinarizer() ohe = mlb.fit_transform(as_list) # loop over each of the possible class labels and show them for (i, label) in enumerate(mlb.classes_): print("{}. {}".format(i + 1, label)) [INFO] class labels: 1. class1 2. class2 3. class3 4. class4 5. class5 6. class6

proba = model.predict(testX) idxs = np.argsort(proba)[::-1][:2] for i in proba: print ('\n') for (label, p) in zip(mlb.classes_, i): print("{}: {:.2f}%".format(label, p * 100)) class1: 69.41% class2: 76.41% class3: 58.02% class4: 63.97% class5: 48.91% class6: 58.28% class1: 69.37% class2: 76.42% class3: 58.01% class4: 63.92% class5: 48.88% class6: 58.26%

1条回答

网友

1楼 · 发布于 2024-05-13 02:33:24

从v0.21开始，scikit学习包括一个多标签混淆矩阵；将来自docs的示例改编为5个类：

import numpy as np
from sklearn.metrics import multilabel_confusion_matrix
y_true = np.array([[1, 0, 1, 0, 0],
                   [0, 1, 0, 1, 1],
                   [1, 1, 1, 0, 1]])
y_pred = np.array([[1, 0, 0, 0, 1],
                   [0, 1, 1, 1, 0],
                   [1, 1, 1, 0, 0]])

multilabel_confusion_matrix(y_true, y_pred)
# result:
array([[[1, 0],
        [0, 2]],

       [[1, 0],
        [0, 2]],

       [[0, 1],
        [1, 1]],

       [[2, 0],
        [0, 1]],

       [[0, 1],
        [2, 0]]])

通常的classification_report也可以正常工作：

from sklearn.metrics import classification_report
print(classification_report(y_true, y_pred))
# result
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         2
           1       1.00      1.00      1.00         2
           2       0.50      0.50      0.50         2
           3       1.00      1.00      1.00         1
           4       0.00      0.00      0.00         2

   micro avg       0.75      0.67      0.71         9
   macro avg       0.70      0.70      0.70         9
weighted avg       0.67      0.67      0.67         9
 samples avg       0.72      0.64      0.67         9

关于ROC，您可以从文档中的Plot ROC curves for the multilabel problem示例中获得一些想法（但不太确定这个概念本身是否非常有用）

混淆矩阵和分类报告需要硬分类预测（如示例所示）；ROC要求预测为概率

要将概率预测转换为硬类，需要一个阈值。现在，通常（隐式地）该阈值被取为0.5，即如果y_pred > 0.5，则预测1，否则预测0。然而，情况并非总是如此，这取决于具体问题。一旦设置了这样一个阈值，您就可以轻松地将概率预测转换为具有列表理解的硬类；下面是一个简单的例子：

import numpy as np

y_prob = np.array([[0.9, 0.05, 0.12, 0.23, 0.78],
                   [0.11, 0.81, 0.51, 0.63, 0.34],
                   [0.68, 0.89, 0.76, 0.43, 0.27]])

thresh = 0.5

y_pred = np.array([[1 if i > thresh else 0 for i in j] for j in y_prob])

y_pred
# result:
array([[1, 0, 0, 0, 1],
       [0, 1, 1, 1, 0],
       [1, 1, 1, 0, 0]])

相关问题更多 >

编程相关推荐

热门问题

热门文章