有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!


共 (2) 个答案

  1. # 1 楼答案

    我对拼花文件仍然很熟悉,我发现以Spark数据集的形式打开拼花文件以列出并行流会更快:

    // spark dataset to list parallel foreach
    String PATH_SCHEMA = "s3a://" + bucket + "/" + key;
    Path path = new Path(PATH_SCHEMA);
    
    SparkSession spark = SparkSession.builder().master("local[1]").appName("example.com").getOrCreate();
    Dataset<Row> ds = spark.read().parquet(path.toString());
    ds.collectAsList().parallelStream().forEach(Class::method);
    
  2. # 2 楼答案

    我找到的唯一方法是有一个执行者池,这个池的每个工作人员都会读一个拼花文件