如何将多个不同维度的分类输入变量应用到随机森林回归模型中？

Design_cntry Prod_category prod_line ... time_minutes A A1 A11 ... 43.2 B B1 A11 ... 20.1 C E1 B11 ... 15.0 ... ... ... ... ....

1条回答

网友

1楼 · 发布于 2024-05-29 07:04:02

作为（重要的）补充说明，为了避免伪变量陷阱，您需要为每个分类变量移除一个值：您可以通过在pd.get_dummies中添加drop_first=True来实现

对于您的回归模型，您可以将所有这些新特性放在一起，并使用它来训练您的模型。但您不必创建18个不同的数据帧，您可以一次创建所有数据帧：

>>> df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],'C': [1, 2, 3]})
   A  B  C
0  a  b  1
1  b  a  2
2  a  c  3

>>> pd.get_dummies(df, drop_first=True)
   C  A_b  B_b  B_c
0  1    0    1    0
1  2    1    0    0
2  3    0    0    1

这将只为分类变量（即char列）创建虚拟变量，并保持int列的原样（参见上面的C列）。如果某个变量只包含整数，但希望将其视为分类变量，只需事先将其转换为字符变量即可

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将多个不同维度的分类输入变量应用到随机森林回归模型中？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >