使用Ai将数据从Postgres/MySQL移动到S3

2024-05-13 18:05:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我们正试图从Pentaho Kettle转移到ApacheAirflow来执行ETL,并将所有数据处理集中在1个工具下。在

我们使用Kettle每天从Postgres/Mysql数据库读取数据,并将数据移动到S3->;Redshift。在

最简单的方法是什么?我看不到可以直接执行此操作的运算符;那么我应该使用MySQL/Postgres操作符将数据放入本地文件,使用S3操作符将数据移动到S3吗?在

谢谢你


Tags: 工具数据gt数据库redshifts3mysqletl
2条回答

你可以建立自己的运营商“mysql_to_s3”,并将其作为插件添加到Airflow中。在

有一个操作员可以将数据从Mysql归档到gcs:

mysql_to_gcs.py

您可以让所有的代码在def _upload_to_gcs上稍作修改,而使用s3}钩子:s3_hook.py。在

有关自定义插件的文档:

Airflow plugins: Blog article

Airflow plugins: Official documentation

airflow插件(天文学家)有一个MySqlToS3Operator,它将获取mysql查询的结果集,并将其作为csv或json放到s3上。在

插件可以在这里找到: https://github.com/airflow-plugins/mysql_plugin/blob/master/operators/mysql_to_s3_operator.py

从那里,您可以使用s3到u redshift运算符将数据从s3加载到redshift:https://airflow.readthedocs.io/en/latest/_modules/airflow/operators/s3_to_redshift_operator.html

相关问题 更多 >