HDF5-并发、压缩和I/O性能问题的回答

HDF5-并发、压缩和I/O性能

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

更新为使用pandas 0.13.1 1）编号<a href="http://pandas.pydata.org/pandas-docs/dev/io.html#notes-caveats" rel="noreferrer">http://pandas.pydata.org/pandas-docs/dev/io.html#notes-caveats</a>。有多种方法可以做到这一点，例如让不同的线程/进程写出计算结果，然后让单个进程组合起来。 2）根据存储的数据类型、存储方式和检索方式，HDF5可以提供更好的性能。以单个数组的形式存储在<code>HDFStore</code>中，经过压缩（换句话说，不是以允许查询的格式存储）的浮点数据将以惊人的速度存储/读取。即使以表格式存储（这会降低写入性能），也会提供相当好的写入性能。您可以查看这个以获得一些详细的比较（这是<code>HDFStore</code>在引擎盖下使用的）。<a href="http://www.pytables.org/" rel="noreferrer">http://www.pytables.org/</a>，这是一张好照片：<img src="https://i.stack.imgur.com/YNhCa.png" alt=""/> （而且由于PyTables 2.3现在已经为查询编制了索引），所以perf实际上比这要好得多所以要回答你的问题，如果你想要任何一种性能，HDF5是一条路要走。 写作： <pre><code>In [14]: %timeit test_sql_write(df) 1 loops, best of 3: 6.24 s per loop In [15]: %timeit test_hdf_fixed_write(df) 1 loops, best of 3: 237 ms per loop In [16]: %timeit test_hdf_table_write(df) 1 loops, best of 3: 901 ms per loop In [17]: %timeit test_csv_write(df) 1 loops, best of 3: 3.44 s per loop </code></pre> 阅读 <pre><code>In [18]: %timeit test_sql_read() 1 loops, best of 3: 766 ms per loop In [19]: %timeit test_hdf_fixed_read() 10 loops, best of 3: 19.1 ms per loop In [20]: %timeit test_hdf_table_read() 10 loops, best of 3: 39 ms per loop In [22]: %timeit test_csv_read() 1 loops, best of 3: 620 ms per loop </code></pre> 这是密码 <pre><code>import sqlite3 import os from pandas.io import sql In [3]: df = DataFrame(randn(1000000,2),columns=list('AB')) <class 'pandas.core.frame.DataFrame'> Int64Index: 1000000 entries, 0 to 999999 Data columns (total 2 columns): A 1000000 non-null values B 1000000 non-null values dtypes: float64(2) def test_sql_write(df): if os.path.exists('test.sql'): os.remove('test.sql') sql_db = sqlite3.connect('test.sql') sql.write_frame(df, name='test_table', con=sql_db) sql_db.close() def test_sql_read(): sql_db = sqlite3.connect('test.sql') sql.read_frame("select * from test_table", sql_db) sql_db.close() def test_hdf_fixed_write(df): df.to_hdf('test_fixed.hdf','test',mode='w') def test_csv_read(): pd.read_csv('test.csv',index_col=0) def test_csv_write(df): df.to_csv('test.csv',mode='w') def test_hdf_fixed_read(): pd.read_hdf('test_fixed.hdf','test') def test_hdf_table_write(df): df.to_hdf('test_table.hdf','test',format='table',mode='w') def test_hdf_table_read(): pd.read_hdf('test_table.hdf','test') </code></pre> 当然是YMMV。

HDF5-并发、压缩和I/O性能

1 个回答

相关Python问题