2024-05-13 18:05:06 发布
网友
我们正试图从Pentaho Kettle转移到ApacheAirflow来执行ETL,并将所有数据处理集中在1个工具下。在
我们使用Kettle每天从Postgres/Mysql数据库读取数据,并将数据移动到S3->;Redshift。在
最简单的方法是什么?我看不到可以直接执行此操作的运算符;那么我应该使用MySQL/Postgres操作符将数据放入本地文件,使用S3操作符将数据移动到S3吗?在
谢谢你
你可以建立自己的运营商“mysql_to_s3”,并将其作为插件添加到Airflow中。在
有一个操作员可以将数据从Mysql归档到gcs:
mysql_to_gcs.py
您可以让所有的代码在def _upload_to_gcs上稍作修改,而使用s3}钩子:s3_hook.py。在
def _upload_to_gcs
有关自定义插件的文档:
Airflow plugins: Blog article
Airflow plugins: Official documentation
airflow插件(天文学家)有一个MySqlToS3Operator,它将获取mysql查询的结果集,并将其作为csv或json放到s3上。在
MySqlToS3Operator
插件可以在这里找到: https://github.com/airflow-plugins/mysql_plugin/blob/master/operators/mysql_to_s3_operator.py
从那里,您可以使用s3到u redshift运算符将数据从s3加载到redshift:https://airflow.readthedocs.io/en/latest/_modules/airflow/operators/s3_to_redshift_operator.html
你可以建立自己的运营商“mysql_to_s3”,并将其作为插件添加到Airflow中。在
有一个操作员可以将数据从Mysql归档到gcs:
mysql_to_gcs.py
您可以让所有的代码在
def _upload_to_gcs
上稍作修改,而使用s3}钩子:s3_hook.py。在有关自定义插件的文档:
Airflow plugins: Blog article
Airflow plugins: Official documentation
airflow插件(天文学家)有一个
MySqlToS3Operator
,它将获取mysql查询的结果集,并将其作为csv或json放到s3上。在插件可以在这里找到: https://github.com/airflow-plugins/mysql_plugin/blob/master/operators/mysql_to_s3_operator.py
从那里,您可以使用s3到u redshift运算符将数据从s3加载到redshift:https://airflow.readthedocs.io/en/latest/_modules/airflow/operators/s3_to_redshift_operator.html
相关问题 更多 >
编程相关推荐