如何在pysp中进行mean(target)编码

2024-06-10 16:27:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要对数据集中的所有分类列进行平均(目标)编码。为了简化这个问题,假设我的数据集中有两列,第一列是label列,第二列是category列。在

例如

label | cate1   
  0   |  abc    
  1   |  abc    
  0   |  def    
  0   |  def    
  1   |  ghi

所以根据平均编码策略:https://towardsdatascience.com/why-you-should-try-mean-encoding-17057262cd0

输出应该是

^{pr2}$

我试过考拉来解决这个问题,但是失败了。这就是我尝试过的:

^{3}$

{Koalas}不允许按级别更新}

所以我希望pyspark能解决这个问题。在


Tags: 数据httpscom目标编码def分类策略