擅长:python、mysql、java
<pre><code>data_chunks = pd.read_csv(filename, chunk_size=1024)
for chunk in data_chunks:
process(chunk)
</code></pre>
<p>通过这样做,您可以访问所有的块,现在有多种方法可以选择一个平衡的类数据集,方法是创建一个包含块中所有相等类的新数据帧<br/><br/>
我还建议对无法直接加载到内存中的大型数据帧使用<a href="https://examples.dask.org/dataframes/01-data-access.html" rel="nofollow noreferrer">DASK</a>。它不会改变pandas语法,在大数据帧上就像一个符咒一样工作</p>