AWS Glue与Python集成

2024-04-20 06:26:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个在python中存在的数据规范化过程,但现在需要扩展。此进程当前通过特定于作业的配置文件运行,该文件包含需要应用于该作业的数据表的转换函数列表。变换函数是互斥的,可以按任何顺序应用。所有转换函数都位于库中,只有当它们列在作业特定的配置文件中时才会导入并应用于数据。不同的作业将在该作业的配置中列出不同的所需函数,但所有函数都将存在于库中。在

在最一般的意义上,AWS Glue如何处理这样的过程?我不需要一个技术示例,而是一个高层次的概述。只是想知道一些选择。谢谢!在


Tags: 文件数据函数aws列表进程顺序过程
1条回答
网友
1楼 · 发布于 2024-04-20 06:26:27

在使用AWS glue时,您需要考虑的最重要的一件事是,它是一个基于spark的无服务器环境,并带有扩展。这意味着您需要将脚本调整为类似于pySpark。如果您同意,那么可以按照AWS Glue Documentation中的说明使用外部python库

如果您已经运行了脚本,并且不想使用Spark,那么可以考虑使用AWS数据管道。它是一种以更多方式运行数据转换的服务,而不仅仅是Spark。不利的一面是,AWS数据管道是任务驱动的,而不是数据驱动的,这意味着没有目录或模式管理。在

如果您想在Python中使用AWS数据管道,在阅读文档时并不明显,但是这个过程基本上是将一个shell文件转移到S3中,其中包含设置Python环境和调用脚本的说明。然后为管道配置调度,AWS将负责在需要时启动虚拟机,然后停止运行。你有一个good post at stackoverflow about this

相关问题 更多 >