我有大约1亿个json文件(10tb),每个文件都有一个包含一堆文本的特定字段,我想对这些文件执行一个简单的子字符串搜索,并返回所有相关json文件的文件名。它们目前都存储在谷歌云存储上。通常情况下,对于数量较少的文件,我可能只是启动一个具有许多cpu的VM,并通过Python运行多处理,但遗憾的是,这有点太多了。你知道吗
我希望避免花费太多时间建立Hadoop服务器之类的基础设施,或者将所有这些都加载到MongoDB数据库中。我的问题是:执行这项任务,什么样的方式又快又脏?我最初的想法是在Kubernetes上用一些运行Python脚本的并行处理来设置一些东西,但是我对建议持开放态度,不知道如何去做。你知道吗
更简单的方法是将GCS数据加载到Big Query,然后从那里运行查询。
将数据发送到awss3并使用Amazon Athena。
Kubernetes选项将在GKE中设置一个集群,并在其中安装Presto,其中包含大量工作线程,使用hive metastore with GCS并从那里进行查询。(普雷斯托还没有直接的地面军事系统连接器,afaik)这个选项似乎更复杂。
希望有帮助!你知道吗
相关问题 更多 >
编程相关推荐