Apache beam python从文件模式读取文件时的错误处理

2024-04-20 14:05:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在从一个目录中读取所有文件并写入bigquery表。你知道吗

如果目录中的任何文件有错误,它将引发错误并停止作业。我在日志中没有得到关于该文件(引发错误的文件名)的任何信息。你知道吗

with beam.Pipeline(options=pipeline_options) as p:
    read_rec = p  | 'Read Files' >> ReadFromText('gs://MyBucket/MyDir/*.gz')
    read_str = read_rec | 'Map to Json' >> beam.Map(string_format)
    write_rec = read_str | 'Write to BigQuery' >> beam.io.WriteToBigQuery(
        known_args.output,schema='string_field_0:STRING',
        createdisposition=beam.io.BigQueryDisposition.CREATE_NEVER,
        write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND
    ) 

有没有办法跳过失败的文件并继续下一个文件,或者至少记录遇到错误的文件名。你知道吗


Tags: 文件toio目录mapreadstring文件名