擅长:python、mysql、java
<p>通过使用pandas groupby/apply并从生成的数据帧中写入csv,我在一个简单的N=10000测试用例上获得了大约5倍的速度提升:</p>
<pre><code>df = pd.read_csv('emails.csv')
grouped = df.groupby('sender_id').apply(lambda group: ' '.join(group.text))
grouped.to_csv('/storage/test.csv')
</code></pre>
<p>我会从这个开始,如果不够的话继续优化。如果内存是一个问题,那么您可以求助于<a href="http://dask.pydata.org/en/latest/dataframe.html" rel="nofollow">^{<cd1>}</a>,它提供了一个类似熊猫的接口,可以对数据帧进行直接的核心外/分布式计算。你知道吗</p>