2024-06-16 14:26:19 发布
网友
我有一个数据集,我做了多次映射。你知道吗
假设reduce函数有3个键值对,那么如何修改输出以使我有3个blobfile—每个键值对一个?你知道吗
如果我能进一步澄清,一定要告诉我。你知道吗
我认为这样的功能还不存在在GAE Mapreduce库中。你知道吗
根据数据集的大小和所需的输出类型,您可以通过选择reducer作为另一个输出编写器来解决这一问题。例如,如果一个reducer输出应该直接返回到数据存储,而另一个输出应该返回到一个文件,那么您可以自己打开一个文件并将输出写入其中。或者,您可以使用operation.db.Put将中间映射结果序列化并显式存储到临时数据存储,并在该数据存储上执行单独的映射或Reduce作业。当然,这最终会比第一个解决方案更昂贵。你知道吗
operation.db.Put
在您特定的键值示例中,我建议将其写入Google云存储文件,并根据需要对其进行后处理,将其拆分为三个文件。这还将使您能够更好地控制最终文件名。你知道吗
我认为这样的功能还不存在在GAE Mapreduce库中。你知道吗
根据数据集的大小和所需的输出类型,您可以通过选择reducer作为另一个输出编写器来解决这一问题。例如,如果一个reducer输出应该直接返回到数据存储,而另一个输出应该返回到一个文件,那么您可以自己打开一个文件并将输出写入其中。或者,您可以使用
operation.db.Put
将中间映射结果序列化并显式存储到临时数据存储,并在该数据存储上执行单独的映射或Reduce作业。当然,这最终会比第一个解决方案更昂贵。你知道吗在您特定的键值示例中,我建议将其写入Google云存储文件,并根据需要对其进行后处理,将其拆分为三个文件。这还将使您能够更好地控制最终文件名。你知道吗
相关问题 更多 >
编程相关推荐