GAE MapReduce,如何编写多个输出

2024-06-16 14:26:19 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据集,我做了多次映射。你知道吗

假设reduce函数有3个键值对,那么如何修改输出以使我有3个blobfile—每个键值对一个?你知道吗

如果我能进一步澄清,一定要告诉我。你知道吗


Tags: 数据函数reduce键值blobfile
1条回答
网友
1楼 · 发布于 2024-06-16 14:26:19

我认为这样的功能还不存在在GAE Mapreduce库中。你知道吗

根据数据集的大小和所需的输出类型,您可以通过选择reducer作为另一个输出编写器来解决这一问题。例如,如果一个reducer输出应该直接返回到数据存储,而另一个输出应该返回到一个文件,那么您可以自己打开一个文件并将输出写入其中。或者,您可以使用operation.db.Put将中间映射结果序列化并显式存储到临时数据存储,并在该数据存储上执行单独的映射或Reduce作业。当然,这最终会比第一个解决方案更昂贵。你知道吗

在您特定的键值示例中,我建议将其写入Google云存储文件,并根据需要对其进行后处理,将其拆分为三个文件。这还将使您能够更好地控制最终文件名。你知道吗

相关问题 更多 >