数据工程用例的通用实用函数
hip-data-tools的Python项目详细描述
HIP数据工具
版权所有Hipages Group Pty Ltd 2019
用于数据工程、etl、探索等的常用python工具和实用程序。 该软件包上载到PYPI,以便在各种环境中轻松下载和使用,例如(但不限于):
- 运行生产工作负载
- 类似于笔记本电脑的ML培训
- 用于开发和探索的本地机器
安装
从pypi repo安装:
pip3 install hip-data-tools
从源安装
pip3 install .
连接到AWS
您需要实例化一个aws连接:
fromhip_data_tools.authenticateimportAwsConnectionconn=AwsConnection(mode="assume_role",settings={"profile_name":"default"})# OR if you want to connect using Env Vars:conn=AwsConnection(mode="standard_env_var",settings={})# OR if you want custom set of env vars to connectconn=AwsConnection(mode="custom_env_var",settings={"aws_access_key_id_env_var":"aws_access_key_id","aws_secret_access_key_env_var":"aws_secret_access_key"})
使用此对象连接,您可以使用aws实用程序,例如aws athena:
fromhip_data_tools.aws.athenaimportAthenaUtilau=AthenaUtil(database="default",conn=conn,output_bucket="example",output_key="tmp/scratch/")result=au.run_query("SELECT * FROM temp limit 10",return_result=True)print(result)