如何用java代码并行读取拼花地板文件

9 月 Questions & Answers 460

可以并行读取拼花地板文件吗

我使用的是与这里描述的类似的东西（基于AvroParquetReader）：how to read a parquet file, in a standalone java code? 但这是按顺序进行的，而不是并行进行的

干杯

# 1 楼答案

我对拼花文件仍然很熟悉，我发现以Spark数据集的形式打开拼花文件以列出并行流会更快：

// spark dataset to list parallel foreach
String PATH_SCHEMA = "s3a://" + bucket + "/" + key;
Path path = new Path(PATH_SCHEMA);

SparkSession spark = SparkSession.builder().master("local[1]").appName("example.com").getOrCreate();
Dataset<Row> ds = spark.read().parquet(path.toString());
ds.collectAsList().parallelStream().forEach(Class::method);

Python中文网

有 Java 编程相关的问题?

如何用java代码并行读取拼花地板文件

共 (2) 个答案

# 1 楼答案

# 2 楼答案