目标缩放导致Scikit-learn SVM回归失效
在训练支持向量机(SVM)回归模型时,通常建议在训练之前对输入特征进行缩放。
那么,目标值(也就是我们想要预测的结果)呢?通常认为不需要对目标值进行缩放,我也看不出有什么好的理由认为这是必要的。
不过,在scikit-learn的SVM回归示例中:
http://scikit-learn.org/stable/auto_examples/svm/plot_svm_regression.html在训练之前,只需在代码中加一行 y=y/1000,预测结果就会变成一个常数值。对目标变量进行缩放可以解决这个问题,但我不明白为什么这样做是必要的。
这个问题的原因是什么呢?
import numpy as np
from sklearn.svm import SVR
import matplotlib.pyplot as plt
# Generate sample data
X = np.sort(5 * np.random.rand(40, 1), axis=0)
y = np.sin(X).ravel()
# Add noise to targets
y[::5] += 3 * (0.5 - np.random.rand(8))
# Added line: this will make the prediction break down
y=y/1000
# Fit regression model
svr_rbf = SVR(kernel='rbf', C=1e3, gamma=0.1)
svr_lin = SVR(kernel='linear', C=1e3)
svr_poly = SVR(kernel='poly', C=1e3, degree=2)
y_rbf = svr_rbf.fit(X, y).predict(X)
y_lin = svr_lin.fit(X, y).predict(X)
y_poly = svr_poly.fit(X, y).predict(X)
# look at the results
plt.scatter(X, y, c='k', label='data')
plt.hold('on')
plt.plot(X, y_rbf, c='g', label='RBF model')
plt.plot(X, y_lin, c='r', label='Linear model')
plt.plot(X, y_poly, c='b', label='Polynomial model')
plt.xlabel('data')
plt.ylabel('target')
plt.title('Support Vector Regression')
plt.legend()
plt.show()
1 个回答
12
支持向量回归使用了一种损失函数,这个函数只有在预测值和目标值之间的差距超过某个阈值时才会有正值。低于这个阈值时,预测就被认为是“足够好”,损失为零。当你把目标值缩小的时候,支持向量机(SVM)学习器可以只返回一个平坦的模型,因为这样就不会产生任何损失。
这个阈值参数在 sklearn.svm.SVR
中叫做 epsilon
; 如果目标值比较小,可以把它设置得更低。关于这个数学原理的详细解释可以在 这里 找到。