擅长:python、mysql、java
<p>不幸的是,Spark 3.x(DBR>;=7.x)完全忽略了<code>maxFilesPerTrigger</code>等选项,这些选项限制了为处理而提取的数据量——在这种情况下,它将尝试一次性处理所有数据,有时可能会导致性能问题</p>
<p>要解决此问题,您可以定期执行以下hack检查<code>stream.get('numInputRows')</code>的值,如果它在一段时间内等于0,则发出<code>stream.stop()</code></p>
<p>更新,2021年10月:通过引入新的触发器类型-<code>Trigger.AvailableNow</code>(请参见<a href="https://issues.apache.org/jira/browse/SPARK-36533" rel="nofollow noreferrer">SPARK-36533</a>),Spark 3.3中似乎将对其进行修复</p>