擅长:python、mysql、java
<p>管道的文件IO部分可以通过使用<code>apache_beam.io.textio.ReadFromText(file_pattern='/mnt/nfs_drive/wiki_files/*')</code>来简化</p>
<p><a href="https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#preventing-fusion" rel="nofollow noreferrer">Fusion</a>是可能阻止并行性的另一个原因。解决方案是在读取所有文件后插入一个<code>apache_beam.transforms.util.Reshuffle</code></p>