缓存有序的Spark数据帧会创建不需要的作业

from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', DoubleType()), StructField('value', DoubleType())]) df = spark.createDataFrame( sc.parallelize([Row(t=float(i/10), value=float(i*i)) for i in range(1000)], 4), #.cache(), schema=schema, verifySchema=False ).orderBy("t") #.cache()

1条回答

网友

1楼 · 发布于 2024-04-18 11:17:32

我提交了一个bug ticket，它关闭的原因如下：

Caching requires the backing RDD. That requires we also know the backing partitions, and this is somewhat special for a global order: it triggers a job (scan) because we need to determine the partition bounds.

编程相关推荐

java Google Gson不允许在属性名中使用“@”
java如何在Eclipse中扩展变量视图中的所有节点？
Eclipse在构建Jar文件时如何选择要编译的Java方法？
java单击某些ListView项目时如何拨打特定号码
spring不断获得java。lang.ClassNotFoundException:com。太阳面孔。配置。配置侦听器
datetime如何使用Java ZoneId。systemDefault（）如果我的计算机未连接到Internet，是否知道时区？
如何使用xml配置文件、JAVA、Spring安全性通过LDAP对用户进行身份验证
java如何在Android的Fragment中创建Yes/NO警报对话框
多维数组将1D转换为2D java。lang.ArrayIndexOutOfBoundsException
内存不足Java OutOfMemoryException无法创建新的本机线程

相关问题更多 >

编程相关推荐

热门问题

热门文章

缓存有序的Spark数据帧会创建不需要的作业

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >