使用欧几里德距离或simi的pyspark中的最近邻

2024-04-26 22:36:01 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我需要在pyspark DF中使用欧几里德距离或任何东西来找到给定行的最近邻。我有20多个列,超过1000行,所有的值都是数字。在

我试图在pyspark中过采样一些数据,因为mllib没有内置的支持,所以我决定用smote自己创建它。在

到目前为止,我的方法是使用stringtoindex将所有的范畴距离转换成索引,这样我就可以找到欧几里德距离和邻域,从而执行smote。在

我对spark和ml比较陌生。任何帮助都将不胜感激。在


Tags: 数据方法距离df数字ml内置邻域