与Matlab相比，Numpy加载csv太慢

setup_stmt = 'import numpy as np' stmt1 = """\ my_data = np.genfromtxt('./test.csv', delimiter=',') """ stmt2 = """\ my_data = np.loadtxt('./test.csv', delimiter=',') """ t1 = timeit.timeit(stmt=stmt1, setup=setup_stmt, number=3) t2 = timeit.timeit(stmt=stmt2, setup=setup_stmt, number=3)

3条回答

网友
1楼 · 编辑于 2024-04-26 03:15:43

或许，最好装配一个简单的c代码，将数据转换成二进制文件，并让“numpy”读取二进制文件。我有一个20gbcsv文件要读取，CSV数据是int，double，str的混合体。Numpy读取到结构数组需要一个多小时，而转储到binary需要大约2分钟，加载到Numpy需要不到2秒！
例如，我的特定代码是可用的here。

网友
2楼 · 编辑于 2024-04-26 03:15:43

如果您只想保存并读取numpy数组，那么最好根据大小将其保存为二进制或压缩二进制：
my_data = np.random.rand(1500000, 3)*10 np.savetxt('./test.csv', my_data, delimiter=',', fmt='%.2f') np.save('./testy', my_data) np.savez('./testz', my_data) del my_data setup_stmt = 'import numpy as np' stmt1 = """\ my_data = np.genfromtxt('./test.csv', delimiter=',') """ stmt2 = """\ my_data = np.load('./testy.npy') """ stmt3 = """\ my_data = np.load('./testz.npz')['arr_0'] """ t1 = timeit.timeit(stmt=stmt1, setup=setup_stmt, number=3) t2 = timeit.timeit(stmt=stmt2, setup=setup_stmt, number=3) t3 = timeit.timeit(stmt=stmt3, setup=setup_stmt, number=3) genfromtxt 39.717250824 save 0.0667860507965 savez 0.268463134766

网友
3楼 · 编辑于 2024-04-26 03:15:43

是的，将csv文件读入numpy非常慢。在代码路径上有很多纯Python。现在，即使我使用纯的numpy，我仍然使用pandas作为IO：

>>> import numpy as np, pandas as pd
>>> %time d = np.genfromtxt("./test.csv", delimiter=",")
CPU times: user 14.5 s, sys: 396 ms, total: 14.9 s
Wall time: 14.9 s
>>> %time d = np.loadtxt("./test.csv", delimiter=",")
CPU times: user 25.7 s, sys: 28 ms, total: 25.8 s
Wall time: 25.8 s
>>> %time d = pd.read_csv("./test.csv", delimiter=",").values
CPU times: user 740 ms, sys: 36 ms, total: 776 ms
Wall time: 780 ms

或者，在这个简单的例子中，您可以使用Joe Kington写的here：

>>> %time data = iter_loadtxt("test.csv")
CPU times: user 2.84 s, sys: 24 ms, total: 2.86 s
Wall time: 2.86 s

还有Warren Weckesser的textreader库，以防pandas过于依赖：

>>> import textreader
>>> %time d = textreader.readrows("test.csv", float, ",")
readrows: numrows = 1500000
CPU times: user 1.3 s, sys: 40 ms, total: 1.34 s
Wall time: 1.34 s

相关问题更多 >

编程相关推荐

热门问题

热门文章