Sklearn Multilabel ML:ValueError:标签二进制化不支持多输出目标数据

2024-04-26 14:09:48 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在构建一个程序，为文本描述分配多个标签/标签。我使用OneVsRestClassifier来标记我的文本描述。xTrain、xTest和yttrain都是'numpy.ndarray'。考虑到我以正确的方式分割了培训和测试数据，这看起来确实很奇怪。以下是我的代码：

xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size=0.2)

nb_clf = MultinomialNB()
sgd = SGDClassifier()
lr = LogisticRegression()
mn = MultinomialNB()

print("xTrain.shape = " + str(xTrain.shape))
print("xTest.shape = " + str(xTest.shape))
print("yTrain.shape = " + str(yTrain.shape))
print("yTest.shape = " + str(yTest.shape))

print("type(xTrain) = " + str(type(xTrain)))
print("type(xTest) = " + str(type(xTest)))

xTrain = csr_matrix(xTrain).toarray()
xTest = csr_matrix(xTest).toarray()
yTrain = csr_matrix(yTrain).toarray()

print("type(xTrain) = " + str(type(xTrain)))

for classifier in [nb_clf, sgd, lr, mn]:
    clf = OneVsRestClassifier(classifier)
    clf.fit(xTrain.astype("U"), yTrain.astype("U"))
    y_pred = clf.predict(xTest)
    print("\ny_pred:")
    print(y_pred)

x输出：

^{pr2}$

输出（O）：

[[0 0 0 ... 1 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 1 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]

打印报表输出：

xTrain.shape = (1173, 13817)
xTest.shape = (294, 13817)
yTrain.shape = (1173, 28)
yTest.shape = (294, 28)
type(xTrain) = <class 'scipy.sparse.csr.csr_matrix'>
type(xTest) = <class 'scipy.sparse.csr.csr_matrix'>
type(xTrain) = <class 'numpy.ndarray'>
type(xTest) = <class 'numpy.ndarray'>
type(yTrain) = <class 'numpy.ndarray'>

错误（在clf.配合线路）：

ValueError: Multioutput target data is not supported with label binarization

Tags： numpy type matrix class print ndarray clf shape

1条回答

网友

1楼 · 发布于 2024-04-26 14:09:48

请首先澄清程序中的特征维度以及样本量。对于目标特性（y），标签不应该是一个热编码的。例如，它应该是[3]而不是[0 0 0 1]

Sklearn Multilabel ML:ValueError:标签二进制化不支持多输出目标数据

相关问题更多 >

编程相关推荐

热门问题

热门文章

Sklearn Multilabel ML:ValueError:标签二进制化不支持多输出目标数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >