如何使用“触发器一次”触发器控制Spark结构化流媒体中每个触发器处理的文件量？

df = ( spark.readStream.format("cloudFiles") .schema(schemaAsStruct) .option("cloudFiles.format", sourceFormat) .option("delimiter", delimiter) .option("header", sourceFirstRowIsHeader) .option("cloudFiles.useNotifications", "true") .option("cloudFiles.includeExistingFiles", "true") .option("badRecordsPath", badRecordsPath) .option("maxFilesPerTrigger", 1) .option("cloudFiles.resourceGroup", omitted) .option("cloudFiles.region", omitted) .option("cloudFiles.connectionString", omitted) .option("cloudFiles.subscriptionId", omitted) .option("cloudFiles.tenantId", omitted) .option("cloudFiles.clientId", omitted) .option("cloudFiles.clientSecret", omitted) .load(sourceBasePath) ) # Traceability columns df = ( df.withColumn(sourceFilenameColumnName, input_file_name()) .withColumn(processedTimestampColumnName, lit(processedTimestamp)) .withColumn(batchIdColumnName, lit(batchId)) ) def process_batch(batchDF, id): batchDF.persist() (batchDF .write .format(destinationFormat) .mode("append") .save(destinationBasePath + processedTimestampColumnName + "=" + processedTimestamp) ) (batchDF .groupBy(sourceFilenameColumnName, processedTimestampColumnName) .count() .write .format(destinationFormat) .mode("append") .save(batchSourceFilenamesTmpDir)) batchDF.unpersist() stream = ( df.writeStream .foreachBatch(process_batch) .trigger(once=True) .option("checkpointLocation", checkpointPath) .start() )

2条回答

网友

1楼 · 编辑于 2024-05-23 21:30:05

您在初始批处理中遇到的具体问题是什么，您能否提供更多详细信息或错误消息

为什么你的第一批货很大是个问题？如果你有大量的历史数据，这是意料之中的

要考虑的是子文件夹——您的文件是否位于子文件夹中，或者仅在根^ ^ }路径中？如果在子文件夹中，请尝试对readStream使用此选项：

option("recursiveFileLookup", "true")

我发现这解决了我的自动加载问题，因为我有数据文件在子文件夹/分区中登录

网友

2楼 · 编辑于 2024-05-23 21:30:05

不幸的是，Spark 3.x（DBR>；=7.x）完全忽略了maxFilesPerTrigger等选项，这些选项限制了为处理而提取的数据量——在这种情况下，它将尝试一次性处理所有数据，有时可能会导致性能问题

要解决此问题，您可以定期执行以下hack检查stream.get('numInputRows')的值，如果它在一段时间内等于0，则发出stream.stop()

更新，2021年10月：通过引入新的触发器类型-Trigger.AvailableNow（请参见SPARK-36533），Spark 3.3中似乎将对其进行修复

相关问题更多 >

编程相关推荐

热门问题

热门文章