擅长:python、mysql、java
<p>这不是一个重要的问题。只需在错误的对象上调用<code>.dropDuplicates()</code>。虽然<code>sqlContext.createDataFrame(rdd1, ...)</code>的类是<code>pyspark.sql.dataframe.DataFrame</code>,但是在应用<code>.collect()</code>之后,它是一个普通的Python <code>list</code>,并且列表不提供<code>dropDuplicates</code>方法。你想要的是这样的东西:</p>
<pre><code> (df1 = sqlContext
.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4'])
.dropDuplicates())
df1.collect()
</code></pre>