我需要对数据集中的所有分类列进行平均(目标)编码。为了简化这个问题,假设我的数据集中有两列,第一列是label列,第二列是category列。在
例如
label | cate1
0 | abc
1 | abc
0 | def
0 | def
1 | ghi
所以根据平均编码策略:https://towardsdatascience.com/why-you-should-try-mean-encoding-17057262cd0
输出应该是
^{pr2}$我试过考拉来解决这个问题,但是失败了。这就是我尝试过的:
^{3}${Koalas}不允许按级别更新}
所以我希望pyspark能解决这个问题。在
目前没有回答
相关问题 更多 >
编程相关推荐