正在设置应用程序引擎mapreduce shard siz

SHARD_SIZE = 42 def map_fun(entity): shard_key = random.randint(1, SHARD_SIZE) yield ( shard_key, db.model_to_protobuf(entity).SerializeToString().encode('base64') ) def reduce_fun(key, entities): batch = [] for entity in entities: #check for stuff batch.append(entity) expensive_side_effect(batch) class MyGreatPipeline(base_handler.PipelineBase): def run(self, *args, **kw): yield mapreduce_pipeline.MapreducePipeline( 'label' 'path.to.map_fun', 'path.to.reduce_fun', 'mapreduce.input_readers.DatastoreInputReader', 'mapreduce.output_writers.BlobstoreOutputWriter', mapper_params={ 'entity_kind': 'path.to.entity', 'queue_name': 'coolQueue' }, reducer_params={}, shard_size = SHARD_SIZE )

1条回答

网友

1楼 · 发布于 2024-05-29 11:38:34

我不明白你在这里做什么。使用映射阶段将内容分组到一个小的、分片的密钥上，然后在reduce time处理这些密钥看起来很奇怪。即使你的reduce工人和mapper工人的数量一样多，你最终还是要为每个关键点做太多的工作。在

正在处理的'batch'是随机任意的，所以我假设expensive_side_effect()不依赖于批的内容。为什么不在映射时做这个工作呢，释放一些reduced可以传递给输出编写器的东西呢？在

相关问题更多 >

编程相关推荐

热门问题

热门文章