擅长:python、mysql、java
<p>如果您有一个数据帧,并且希望删除所有重复项--引用特定列中的重复项(称为“colName”):</p>
<p>重复数据消除前的计数:</p>
<pre><code>df.count()
</code></pre>
<p>执行重复数据消除(将要进行重复数据消除的列转换为字符串类型):</p>
<pre><code>from pyspark.sql.functions import col
df = df.withColumn('colName',col('colName').cast('string'))
df.drop_duplicates(subset=['colName']).count()
</code></pre>
<p>可以使用已排序的groupby检查是否已删除重复项:</p>
<pre><code>df.groupBy('colName').count().toPandas().set_index("count").sort_index(ascending=False)
</code></pre>