擅长:python、mysql、java
<p>你可能需要足够的内存,无论你选择哪个选项。你知道吗</p>
<p>但是,您当然应该避免在循环中使用<code>pd.DataFrame.append</code>。这比<code>list.append</code>贵。你知道吗</p>
<p>相反,聚合到一个列表列表中,然后馈送到数据帧中。由于您没有提供示例,下面是一些伪代码:</p>
<pre><code># initialize empty list
L = []
for line in my_binary_file:
# extract components required from each line to a list of Python types
line_vars = [line['var1'], line['var2'], line['var3']]
# append to list of results
L.append(line_vars)
# create dataframe from list of lists
df = pd.DataFrame(L, columns=['var1', 'var2', 'var3'])
</code></pre>