我试图用Python规范Selk DeaFrrAm中的列。
我的数据集:
--------------------------
userID|Name|Revenue|No.of.Days|
--------------------------
1 A 12560 45
2 B 2312890 90
. . . .
. . . .
. . . .
--------------------------
在这个数据集中,除了用户id和名称,我必须规范收入和天数。
输出应该如下所示
userID|Name|Revenue|No.of.Days|
--------------------------
1 A 0.5 0.5
2 B 0.9 1
. . 1 0.4
. . 0.6 .
. . . .
--------------------------
用于计算或规范化每个列中的值的公式是
val = (ei-min)/(max-min)
ei = column value at i th position
min = min value in that column
max = max value in that column
如何使用PySpark简单地完成此操作?
像这样:
对每个要缩放的列重复此操作。
希望下面的代码满足您的要求。
代码:
输出:
您只需使用
.withColumn()
这将返回一个列为
norm_val
的新数据帧。见withColumn
文件here。相关问题 更多 >
编程相关推荐