自定义迭代器性能

Question

我在使用自定义迭代器遍历一个小容器时，发现性能差异挺大的，这让我感到有些意外。我希望有人能帮我理解这些差异是怎么来的。

先说说背景；我正在用boost::python写一些Python扩展模块，其中一个模块绑定了一个3D浮点向量类型，这个类型实现了getitem。因为它有getitem，所以可以进行迭代，但我发现速度似乎很慢，原因不太明显。于是我决定在Python中尝试一些简单的自定义迭代器，以便更好地理解事情是怎么运作的。这就是这些迭代器的来源……

class MyIterator1(object):
    __slots__ = ['values', 'popfn']

    def __init__(self):
        self.values = ['x', 'y', 'z']
        self.popfn = self.values.pop

    def __length_hint__(self):
        return 3

    def __iter__(self):
        return self

    def next(self):
        try:
            return self.popfn()
        except IndexError:
            raise StopIteration

class MyIterator2(object):
    __slots__ = ['values', 'itfn']

    def __init__(self):
        self.values = ['x', 'y', 'z']
        it = iter(self.values)
        self.itfn = it.next

    def __length_hint__(self):
        return 3

    def __iter__(self):
        return self

    def next(self):
        return self.itfn()

class MyIterator3(object):
    __slots__ = ['values', 'i']

    def __init__(self):
        self.values = ['x', 'y', 'z']
        self.i = 0

    def __length_hint__(self):
        return 3

    def __iter__(self):
        return self

    def next(self):
        if self.i >= 3:
            raise StopIteration
        value = self.values[self.i]
        self.i += 1
        return value

def MyIterator4():
    val = ['x', 'y', 'z']
    yield val[0]
    yield val[1]
    yield val[2]

接下来，我用timeit模块运行了这些代码（假设上面的代码在一个叫testiter的模块里）

import timeit

timer1 = timeit.Timer('r = list(testiter.MyIterator1())', 'import testiter')
timer2 = timeit.Timer('r = list(testiter.MyIterator2())', 'import testiter')
timer3 = timeit.Timer('r = list(testiter.MyIterator3())', 'import testiter')
timer4 = timeit.Timer('r = list(testiter.MyIterator4())', 'import testiter')
timer5 = timeit.Timer('r = list(iter(["x", "y", "z"]))', 'import testiter')

print 'list(testiter.MyIterator1())'
print timer1.timeit()

print "\n"

print 'list(testiter.MyIterator2())'
print timer2.timeit()

print "\n"

print 'list(testiter.MyIterator3())'
print timer3.timeit()

print "\n"

print 'list(testiter.MyIterator4())'
print timer4.timeit()

print "\n"

print 'list(iter(["x", "y", "z"]))'
print timer5.timeit()

这段代码输出了以下内容

list(testiter.MyIterator1())
8.57359290123


list(testiter.MyIterator2())
5.28959393501


list(testiter.MyIterator3())
6.11230111122


list(testiter.MyIterator4())
2.31263613701


list(iter(["x", "y", "z"]))
1.26243281364

不出所料，Python的listiterator是最快的，速度差距很大。我猜这和Python内部的一些优化有关。生成器的速度也比MyIterator类快得多，这我也不太意外，应该是因为大部分工作是在C语言中完成的，不过这只是我的猜测。其他的结果就让我感到困惑和惊讶了。在这种情况下，try/except语句真的像看起来那么耗费性能吗，还是说还有其他原因？

如果有人能帮我解释这些差异，我将非常感激！抱歉发了这么长的帖子。

性能优化 boost.python 自定义迭代器 timeit模块 C语言优化 3D浮点向量迭代器速度 try/except性能

自定义迭代器性能

1 个回答

撰写回答