擅长:python、mysql、java
<p>你能做到的</p>
<pre><code>from pyspark.sql.functions import *
df.groupBy(df.order).agg(collect_list("items").alias("items"))
</code></pre>
<p><strong>已编辑</strong></p>
<p>如果您想在rdd中执行相同的操作,可以执行以下操作(scala)</p>
^{pr2}$
<p>假设rdd为</p>
<pre><code>(0,a,1)
(1,a,2)
(2,a,5)
(3,b,1)
(4,b,2)
(5,b,3)
(6,b,5)
(7,c,1)
(8,c,2)
</code></pre>
<p>结果是</p>
<pre><code>((a,List(1, 2, 5)),0)
((b,List(1, 2, 3, 5)),1)
((c,List(1, 2)),2)
</code></pre>