如何建立GCP基础设施来快速搜索大量的json数据?

2024-04-18 04:04:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我有大约1亿个json文件(10tb),每个文件都有一个包含一堆文本的特定字段,我想对这些文件执行一个简单的子字符串搜索,并返回所有相关json文件的文件名。它们目前都存储在谷歌云存储上。通常情况下,对于数量较少的文件,我可能只是启动一个具有许多cpu的VM,并通过Python运行多处理,但遗憾的是,这有点太多了。你知道吗

我希望避免花费太多时间建立Hadoop服务器之类的基础设施,或者将所有这些都加载到MongoDB数据库中。我的问题是:执行这项任务,什么样的方式又快又脏?我最初的想法是在Kubernetes上用一些运行Python脚本的并行处理来设置一些东西,但是我对建议持开放态度,不知道如何去做。你知道吗


Tags: 文件字符串文本服务器hadoopjson数量文件名
1条回答
网友
1楼 · 发布于 2024-04-18 04:04:07
  1. 更简单的方法是将GCS数据加载到Big Query,然后从那里运行查询。

  2. 将数据发送到awss3并使用Amazon Athena

  3. Kubernetes选项将在GKE中设置一个集群,并在其中安装Presto,其中包含大量工作线程,使用hive metastore with GCS并从那里进行查询。(普雷斯托还没有直接的地面军事系统连接器,afaik)这个选项似乎更复杂。

希望有帮助!你知道吗

相关问题 更多 >