如何建立GCP基础设施来快速搜索大量的json数据？ - 问答 - Python中文网

如何建立GCP基础设施来快速搜索大量的json数据？

2024-04-18 04:04:07 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有大约1亿个json文件（10tb），每个文件都有一个包含一堆文本的特定字段，我想对这些文件执行一个简单的子字符串搜索，并返回所有相关json文件的文件名。它们目前都存储在谷歌云存储上。通常情况下，对于数量较少的文件，我可能只是启动一个具有许多cpu的VM，并通过Python运行多处理，但遗憾的是，这有点太多了。你知道吗

我希望避免花费太多时间建立Hadoop服务器之类的基础设施，或者将所有这些都加载到MongoDB数据库中。我的问题是：执行这项任务，什么样的方式又快又脏？我最初的想法是在Kubernetes上用一些运行Python脚本的并行处理来设置一些东西，但是我对建议持开放态度，不知道如何去做。你知道吗

Tags：文件字符串文本服务器 hadoop json 数量文件名

1条回答

网友

1楼 · 发布于 2024-04-18 04:04:07

更简单的方法是将GCS数据加载到Big Query，然后从那里运行查询。
将数据发送到awss3并使用Amazon Athena。
Kubernetes选项将在GKE中设置一个集群，并在其中安装Presto，其中包含大量工作线程，使用hive metastore with GCS并从那里进行查询。（普雷斯托还没有直接的地面军事系统连接器，afaik）这个选项似乎更复杂。

希望有帮助！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章