用于连接和加载数据的简单包装函数
connectivator的Python项目详细描述
连接器
一组包装函数,用于抽象重复的任务,例如从redshift/postgres数据库读取数据,并将其内容写入csv或google工作表。缺乏灵活性,目的是简化和规范进口/出口程序。为了获得更大的灵活性,只需使用这些包装器功能所建立的原始包,即熊猫、G蔓延等。
当前状态
- 连接到postgres/redshift:
postgres.get_engine
- 将sql查询的输出读入数据帧:
transfer.read_sql_data
- 将sql文件的输出写入csv:
transfer.sqls_to_csv
- 将google工作表的内容读入数据框:
gsheets.get_ws_data
- 使用数据框更新google工作表的内容:
gsheets.update_ws
- 将sql文件的输出写入google工作表:
transfer.sqls_to_gs
环境变量
- 将
.env
文件添加到项目根目录。 - 添加以下环境变量,替换为与连接相关的值。格式:
postgres/redshift环境变量
export PGHOST = instance-name.abc123.us-east-1.redshift.amazonaws.com
export PGPORT = 5439
export PGUSER = your_user_name
export PGPASSWORD = your_password
- 在运行脚本之前加载环境变量。例如,在用于运行python脚本的终端中运行
source .env
。
google sheets credient文件和环境变量
需要json凭据文件,可以在google开发人员控制台项目中创建服务帐户时下载该文件。还必须启用启用google sheets api。见:https://developers.google.com/sheets/api/quickstart/python
另外,要修改的google表单需要允许访问服务帐户。为此,请在“管理Google控制台项目的服务帐户”的“凭据”下找到与服务帐户关联的电子邮件。然后转到要修改的谷歌工作表并允许编辑访问此电子邮件。
export GOOGLE_APPLICATION_CREDENTIALS="filepath/to.json"