如何在Python中装饰迭代器以在调用next前修改值?
我正在处理一个问题,需要验证统一差异补丁中的格式。
在这个格式中,变量可能会跨多行,所以我写了一个生成器,可以逐行读取,并在变量完整时返回它。
为了避免在读取统一差异文件时需要重写这个函数,我创建了一个生成器,它会在把行传递给内部格式验证器之前,先去掉统一差异的字符。不过,我现在遇到了一个无限循环的问题(代码和脑子里都是)。我把问题简化成了以下代码。我相信有更好的方法来解决这个问题,但我不知道是什么。
from collections import Iterable
def inner_format_validator(inner_item):
# Do some validation to inner items
return inner_item[0] != '+'
def inner_gen(iterable):
for inner_item in iterable:
# Operates only on inner_info type data
yield inner_format_validator(inner_item)
def outer_gen(iterable):
class DecoratedGenerator(Iterable):
def __iter__(self):
return self
def next(self):
# Using iterable from closure
for outer_item in iterable:
self.outer_info = outer_item[0]
inner_item = outer_item[1:]
return inner_item
decorated_gen = DecoratedGenerator()
for inner_item in inner_gen(decorated_gen):
yield inner_item, decorated_gen.outer_info
if __name__ == '__main__':
def wrap(string):
# The point here is that I don't know what the first character will be
pseudo_rand = len(string)
if pseudo_rand * pseudo_rand % 2 == 0:
return '+' + string
else:
return '-' + string
inner_items = ["whatever"] * 3
# wrap screws up inner_format_validator
outer_items = [wrap("whatever")] * 3
# I need to be able to
# iterate over inner_items
for inner_info in inner_gen(inner_items):
print(inner_info)
# and iterate over outer_items
for outer_info, inner_info in outer_gen(outer_items):
# This is an infinite loop
print(outer_info)
print(inner_info)
有没有更好、更符合Python风格的方法来解决这个问题?
3 个回答
我觉得如果你把DecoratedGenerator的定义改成这样,它就能达到你想要的效果:
class DecoratedGenerator(Iterable):
def __iter__(self):
# Using iterable from closure
for outer_item in iterable:
self.outer_info = outer_item[0]
inner_item = outer_item[1:]
yield inner_item
你原来的版本一直没有结束,因为它的next()
方法没有状态,每次调用都会返回相同的值。其实你根本不需要有next()这个方法,你可以自己实现__iter__()
(就像我做的那样),这样一切就能正常工作了。
我还是不太喜欢这个,不过至少它更简短了一点,看起来也更像Python的风格:
from itertools import imap, izip
from functools import partial
def inner_format_validator(inner_item):
return not inner_item.startswith('+')
inner_gen = partial(imap, inner_format_validator)
def split(astr):
return astr[0], astr[1:]
def outer_gen(iterable):
outer_stuff, inner_stuff = izip(*imap(split, iterable))
return izip(inner_gen(inner_stuff), outer_stuff)
[编辑] inner_gen()
和 outer_gen()
不使用 imap 和 partial:
def inner_gen(iterable):
for each in iterable:
yield inner_format_validator(each)
def outer_gen(iterable):
outer_stuff, inner_stuff = izip(*(split(each) for each in iterable))
return izip(inner_gen(inner_stuff), outer_stuff)
也许这是一个更好的,但又有些不同的解决方案:
def transmogrify(iter_of_iters, *transmogrifiers):
for iters in iter_of_iters:
yield (
trans(each) if trans else each
for trans, each in izip(transmogrifiers, iters)
)
for outer, inner in transmogrify(imap(split, stuff), inner_format_validator, None):
print inner, outer
我会做一些更简单的事情,比如这样:
def outer_gen(iterable):
iterable = iter(iterable)
first_item = next(iterable)
info = first_item[0]
yield info, first_item[1:]
for item in iterable:
yield info, item
这段代码会先执行前四行一次,然后进入循环,输出你想要的结果。
你可能想在这里加一些 try
/except
来捕捉 IndexErrors
错误。
如果你想获取以某个特定开头的值,或者相反的情况,记得可以使用很多来自 itertools
工具箱的东西,特别是 dropwhile
、takewhile
和 chain
:
>>> import itertools
>>> l = ['+foo', '-bar', '+foo']
>>> list(itertools.takewhile(lambda x: x.startswith('+'), l))
['+foo']
>>> list(itertools.dropwhile(lambda x: x.startswith('+'), l))
['-bar', '+foo']
>>> a = itertools.takewhile(lambda x: x.startswith('+'), l)
>>> b = itertools.dropwhile(lambda x: x.startswith('+'), l)
>>> list(itertools.chain(a, b))
['+foo', '-bar', '+foo']
而且记得你可以像创建列表推导那样创建生成器,把它们存储在变量中,并且可以像在Linux中使用管道命令那样连接它们:
import random
def create_item():
return random.choice(('+', '-')) + random.choice(('foo', 'bar'))
random_items = (create_item() for s in xrange(10))
added_items = ((i[0], i[1:]) for i in random_items if i.startswith('+'))
valid_items = ((prefix, line) for prefix, line in added_items if 'foo' in line)
print list(valid_items)
有了这些,你应该能找到一些更符合Python风格的方法来解决你的问题 :-)