Spark:读取分区拼花d中的DateType列时出错

from pyspark.sql import SparkSession spark = SparkSession.builder.enableHiveSupport().getOrCreate() df = spark.read.parquet('s3a://mybucket/mykey/') df.limit(100).write.parquet('hdfs:///output/', compression='gzip')

java.lang.UnsupportedOperationException: org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainBinaryDictionary at org.apache.parquet.column.Dictionary.decodeToInt(Dictionary.java:48) at org.apache.spark.sql.execution.vectorized.OnHeapColumnVector.getInt(OnHeapColumnVector.java:233) at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source) at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43) at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:370) at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:389) at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408) at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:125) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:79) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:47) at org.apache.spark.scheduler.Task.run(Task.scala:86) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.java:745)

2条回答

网友

1楼 · 编辑于 2024-05-15 01:05:29

我知道我来晚了。。。

我也有类似的问题。我读了几首拼花曲，把它们结合起来，试着写。

我的解决方法是在写入之前添加一个.select（…）。

网友

2楼 · 编辑于 2024-05-15 01:05:29

我只是在写拼花时用StringType而不是DateType。别再有问题了。

相关问题更多 >

编程相关推荐

热门问题

热门文章