擅长:python、mysql、java
<p>似乎是一个大数据问题。
您可能需要在您最喜欢的云提供商上安装Spark群集,例如Azure Databricks,然后使用Pyspark在那里执行此操作</p>
<p>有用:<a href="https://stackoverflow.com/questions/31064243/remove-duplicates-from-a-dataframe-in-pyspark">Removing duplicates using Pyspark</a></p>