我不熟悉机器学习和Python。我试图建立一个随机森林模型来预测水泥强度。
有两个.csv
文件:train_data.csv
和test_data.csv
这就是我所做的。我试图预测这里的r2_score
df=pd.read_csv("train_data(1).csv")
X=df.drop('strength',axis=1)
y=df['strength']
model=RandomForestRegressor()
model.fit(X,y)
X_test=pd.read_csv("test_data.csv")
y_pred=model.predict(X_test)
acc_R=metrics.r2_score(y,y_pred)
acc_R
这里的问题是y
和y_pred
的形状不同。所以我得到了这个错误:
ValueError: Found input variables with inconsistent numbers of samples: [721, 309]
我如何纠正这个问题?有人能解释一下我做错了什么吗
您需要将
y_pred
与y_test
进行比较。不是用于训练模型的y
:test_data.csv中应该有另一个y_测试标签列表
请尝试以下操作:
相关问题 更多 >
编程相关推荐