在pysp中用整数对列进行编码

1条回答

网友

1楼 · 发布于 2024-04-26 09:55:30

StringIndexer将所有标签保存在内存中，因此，如果值几乎是唯一的，则不会缩放。在

您可以获取唯一值、排序和添加id，这很昂贵，但在这种情况下更可靠：

from pyspark.sql.functions import monotonically_increasing_id

df = spark.createDataFrame(["a", "b", "c", "a", "d"], "string").toDF("value")

indexer = (df.select("value").distinct()
  .orderBy("value")
  .withColumn("label", monotonically_increasing_id()))

df.join(indexer, ["value"]).show()
# +  -+     -+
# |value|      label|
# +  -+     -+
# |    d|25769803776|
# |    c|17179869184|
# |    b| 8589934592|
# |    a|          0|
# |    a|          0|
# +  -+     -+

请注意，标签不是连续的，可能会因运行而不同，或者在spark.sql.shuffle.partitions发生变化时发生变化。如果不可接受，则必须使用RDDs：

^{pr2}$

编程相关推荐

Java 2D数组，查找包含元素
包含EBCDIC值的java打印字节数组未给出预期值
java应用程序重新启动，由于AndroidRuntime异常而无法运行
java在spring中对拦截器的使用
java ActiveMQ，代理接收要发送的消息的时间戳
JAVA：如何从需要启用Cookie的站点下载HTML文件？
邮件发送期间发生java证书错误
Java错误：类事务中的构造函数事务无法应用于给定类型
方法的Java对象空检查
Java如何在多个源文件夹之间使用全局变量？

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pysp中用整数对列进行编码

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >