numpy float：比内置的算术运算速度慢10倍？

from datetime import datetime import numpy as np START_TIME = datetime.now() # one of the following lines is uncommented before execution #s = np.float64(1) #s = np.float32(1) #s = 1.0 for i in range(10000000): s = (s + 8) * s % 2399232 print(s) print('Runtime:', datetime.now() - START_TIME)

3条回答

网友

1楼 · 编辑于 2024-04-25 12:10:02

也许，这就是为什么应该直接使用Numpy而不是使用循环。

s1 = np.ones(10000000, dtype=np.float)
s2 = np.ones(10000000, dtype=np.float32)
s3 = np.ones(10000000, dtype=np.float64)

np.sum(s1) <-- 17.3 ms
np.sum(s2) <-- 15.8 ms
np.sum(s3) <-- 17.3 ms

网友

2楼 · 编辑于 2024-04-25 12:10:02

在这样一个沉重的循环中操作Python对象，不管它们是float，np.float32，总是很慢的。NumPy对向量和矩阵的操作很快，因为所有的操作都是由用C编写的库的一部分对大块数据执行的，而不是由Python解释器执行的。在解释器和/或使用Python对象中运行的代码总是很慢，使用非本机类型会使其速度更慢。这是意料之中的。

如果你的应用程序很慢，你需要优化它，你应该试着把你的代码转换成一个直接使用NumPy的向量解决方案，并且速度很快，或者你可以使用Cython等工具在C中创建一个循环的快速实现

网友

3楼 · 编辑于 2024-04-25 12:10:02

CPython浮点以块的形式分配

比较numpy标量分配和float类型的关键问题是，CPython总是为大小为N的块中的float和int对象分配内存

在内部，CPython维护一个链接的块列表，每个块都足够大，可以容纳Nfloat个对象。当您调用float(1)时，CPython检查当前块中是否有可用空间；如果没有，则分配一个新块。一旦在当前块中有空格，它只需初始化该空格并返回指向它的指针。

在我的机器上，每个块可以容纳41个float对象，因此第一个float(1)调用有一些开销，但是随着内存的分配和准备就绪，下一个40运行得更快。

慢速numpy.float32与numpy.float64比较

在创建标量类型时，numpy似乎有两条路径：fast和slow。这取决于标量类型是否有一个Python基类，它可以将其推迟到该基类进行参数转换。

由于某些原因，numpy.float32被硬编码为采用较慢的路径(defined by the ^{} macro)，而numpy.float64有机会采用较快的路径(defined by the ^{} macro)。注意，scalartypes.c.src是一个模板，它在构建时生成scalartypes.c。

你可以在Cachegrind中看到这一点。我还提供了屏幕截图，显示了构造float32与float64的调用次数：

float64走捷径

float64 takes the fast path

float32走慢路

float32 takes the slow path

已更新-哪种类型采用慢速/快速路径可能取决于操作系统是32位还是64位。在我的测试系统Ubuntu Lucid 64位上，float64类型比float32快10倍。

相关问题更多 >

编程相关推荐

热门问题

热门文章