我想将我的特征“Age”从一个连续变量改为一个用于二进制分类的年龄范围的分类变量,如下所示:
df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])
不过,我希望以最佳方式对其进行拆分,以便可以最有效地对数据进行分类。i、 e年龄范围内的阶级差异最小化,而不是过度拟合。你知道吗
有没有一个软件包有这样一种方法,可以在这样拆分数据时最小化差异,还是我必须自己写一个?你知道吗
Tags:
也许你可以用
sklearn.cluster
来做这个。你知道吗相关问题 更多 >
编程相关推荐