具有分类输入的回归树或随机森林回归器

import sklearn as sk MODEL = sk.ensemble.RandomForestRegressor(n_estimators=100) MODEL.fit([('a',1,2),('b',2,3),('a',3,2),('b',1,3)], [1,2.5,3,4]) # does not work MODEL.fit([(1,1,2),(2,2,3),(1,3,2),(2,1,3)], [1,2.5,3,4]) #works MODEL = sk.tree.DecisionTreeRegressor() MODEL.fit([('a',1,2),('b',2,3),('a',3,2),('b',1,3)], [1,2.5,3,4]) # does not work MODEL.fit([(1,1,2),(2,2,3),(1,3,2),(2,1,3)], [1,2.5,3,4]) #works

2条回答

网友

1楼 · 编辑于 2024-05-15 23:56:17

您必须在python中手工编写伪代码。我建议对一个热编码使用pandas.get_dummies()。对于增强树，我已经成功地使用factorize()来实现顺序编码。

这类东西还有一个完整的包here。

有关更详细的解释，请参阅this数据科学堆栈交换文章。

网友

2楼 · 编辑于 2024-05-15 23:56:17

scikit-learn没有分类变量（R中的a.k.a因子）的专用表示，一种可能的解决方案是使用LabelEncoder将字符串编码为int：

import numpy as np
from sklearn.preprocessing import LabelEncoder  
from sklearn.ensemble import RandomForestRegressor

X = np.asarray([('a',1,2),('b',2,3),('a',3,2),('c',1,3)]) 
y = np.asarray([1,2.5,3,4])

# transform 1st column to numbers
X[:, 0] = LabelEncoder().fit_transform(X[:,0]) 

regressor = RandomForestRegressor(n_estimators=150, min_samples_split=2)
regressor.fit(X, y)
print(X)
print(regressor.predict(X))

输出：

[[ 0.  1.  2.]
 [ 1.  2.  3.]
 [ 0.  3.  2.]
 [ 2.  1.  3.]]
[ 1.61333333  2.13666667  2.53333333  2.95333333]

但是请记住，如果a和b是独立的类别，并且它只适用于基于树的估计器，那么这是一个小技巧。为什么？因为b实际上并不大于a。正确的方法是在LabelEncoder或pd.get_dummies之后使用OneHotEncoder，从而生成两个独立的、一个热编码的X[:, 0]列。

import numpy as np
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.ensemble import RandomForestRegressor

X = np.asarray([('a',1,2),('b',2,3),('a',3,2),('c',1,3)]) 
y = np.asarray([1,2.5,3,4])

# transform 1st column to numbers
import pandas as pd
X_0 = pd.get_dummies(X[:, 0]).values
X = np.column_stack([X_0, X[:, 1:]])

regressor = RandomForestRegressor(n_estimators=150, min_samples_split=2)
regressor.fit(X, y)
print(X)
print(regressor.predict(X))

相关问题更多 >

编程相关推荐

热门问题

热门文章