链接地图减少了googleappengin

class SongsPurchasedTogetherPipeline(base_handler.PipelineBase): def run(self, filekey, blobkey): bucket_name = app_identity.get_default_gcs_bucket_name() intermediate_output = yield mapreduce_pipeline.MapreducePipeline( "songs_purchased_together_intermediate", "main.songs_purchased_together_map1", "main.songs_purchased_together_reduce1", "mapreduce.input_readers.BlobstoreLineInputReader", "mapreduce.output_writers.GoogleCloudStorageOutputWriter", mapper_params={ "blob_keys": blobkey, }, reducer_params={ "output_writer": { "bucket_name": bucket_name, "content_type": "text/plain", } }, shards=1) yield StoreOutput("SongsPurchasedTogetherIntermediate", filekey, intermediate_output) intermediate_output_key = yield BlobKey(intermediate_output) output = yield mapreduce_pipeline.MapreducePipeline( "songs_purchased_together", "main.songs_purchased_together_map2", "main.songs_purchased_together_reduce2", "mapreduce.input_readers.BlobstoreLineInputReader", "mapreduce.output_writers.GoogleCloudStorageOutputWriter", mapper_params=(intermediate_output_key), reducer_params={ "output_writer": { "bucket_name": bucket_name, "content_type": "text/plain", } }, shards=1) yield StoreOutput("SongsPurchasedTogether", filekey, output)

class BlobKey(base_handler.PipelineBase): def run(self, output): blobstore_filename = "/gs" + output[0] blobstore_gs_key = blobstore.create_gs_key(blobstore_filename) return { "blob_keys": blobstore_gs_key }

1条回答

网友

1楼 · 发布于 2024-04-19 18:14:41

好吧，我发现Google已经从GAE GitHub存储库的标准编写器列表中删除了BlobstoreOutputWriter，这让事情变得有点复杂。我不得不给谷歌云商店写信，然后在那里阅读。我编写了一个helper类，它为GoogleCloudStorageInputReader生成映射器参数。你知道吗

class GCSMapperParams(base_handler.PipelineBase):

  def run(self, GCSPath):
    bucket_name = app_identity.get_default_gcs_bucket_name()
    return {
            "input_reader": {
                "bucket_name": bucket_name,
                "objects": [path.split('/', 2)[2] for path in GCSPath],
            }
        }

该函数将使用GoogleCloudStorageOutputWriter的一个MapReduce阶段的输出作为参数，并返回一个字典，该字典可以分配给下一个MapReduce阶段的映射器参数。你知道吗

基本上，第一个MapReduce阶段的输出值是一个包含<app_name>/<pipeline_name>/key/output-[i]的列表，其中i是碎片的数量。为了使用GoogleCloudStorageInputReader，数据的键应该通过mapper_params中的变量objects传递。键的形式必须是key/output-[i]，因此helper类只是从中删除<app_name>/<pipeline_name>/。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章