用于评估以不同文件格式保存数据帧时的性能的工具。
pandas-save-profiler的Python项目详细描述
熊猫拯救档案器
pandas_save_profiler
帮助您评估和比较不同pandas读写方法的性能。在
安装
pip install pandas-save-profiler
使用
加载pandas和要保存的数据帧。在
^{pr2}$加载pandas_save_profiler
并使用它来评估pandas保存pickle文件的性能:
import pandas_save_profiler
data.save_profiler('to_pickle')
输出的是熊猫系列:
format pickle
writer to_pickle
reader read_pickle
writer_args {'path': '/tmp/tmppk7nkivk'}
reader_args {'filepath_or_buffer': '/tmp/tmppk7nkivk'}
writer_time 0.0798338
reader_time 0.0294895
writer_memory 1.09087e+08
reader_memory 1.09118e+08
df_memory 288
file_size 1122
writer_memory_h 109.1 MB
reader_memory_h 109.1 MB
df_memory_h 288 Bytes
file_size_h 1.1 kB
repeats 5
reads_the_same True
dtype: object
系列中的值表示:
- 用于持久化数据帧以及写入和读取选项的格式。在
- 读写次,以秒为单位。在
- 读写memory增量。在
- 内存中数据帧的大小。在
- ^{str}保存的文件大小
内存值以bytes为单位,但也报告了“人性化”版本。
保存和重新加载过程是repeated5次并返回平均值。
标志reads_the_same
表示重新加载的文件是否与原始文件完全相同或有一些差异。在
你可以用cd4{/strong}函数来比较它们 并将结果合并到结果数据框中:
pd.DataFrame([
data.save_profiler('to_csv'),
data.save_profiler('to_pickle'),
data.save_profiler('to_parquet'),
])
退货:
format writer reader writer_args \
0 csv to_csv read_csv {'path_or_buf': '/tmp/tmpsedehjob'}
1 pickle to_pickle read_pickle {'path': '/tmp/tmp_vhue2q7'}
2 parquet to_parquet read_parquet {'path': '/tmp/tmp0zn8qsnk'}
reader_args writer_time reader_time \
0 {'filepath_or_buffer': '/tmp/tmpsedehjob'} 0.031842 0.039830
1 {'filepath_or_buffer': '/tmp/tmp_vhue2q7'} 0.025705 0.028469
2 {'path': '/tmp/tmp0zn8qsnk'} 0.039009 0.052447
writer_memory reader_memory df_memory file_size writer_memory_h \
0 110149632.0 110599372.8 288 139 110.1 MB
1 110813184.0 110813184.0 288 1122 110.8 MB
2 116892467.2 118014771.2 288 3449 116.9 MB
reader_memory_h df_memory_h file_size_h repeats reads_the_same
0 110.6 MB 288 Bytes 139 Bytes 5 False
1 110.8 MB 288 Bytes 1.1 kB 5 True
2 118.0 MB 288 Bytes 3.4 kB 5 True
- 项目
标签: