从Python scrip更新SQL表的多行

conn = psycopg2.connect(connection_details) cur = conn.cursor() clean_df = raw_data.apply(clean_field_to_parse) for ind, row in clean_df.iterrows(): update_query = build_update_query(row.id, row.clean_integer1, row.clean_integer2) cur.execute(update_query)

def update_query(id, int1, int2): query = """ update tab_tab set clean_int_1 = {}::int, clean_int_2 = {}::int, updated_date = GETDATE() where id = {} ; """ return query.format(int1, int2, id)

1条回答

网友

1楼 · 发布于 2024-04-26 18:07:10

如前所述，考虑纯SQL，通过将Pandas数据帧作为一个staging表推送到Postgres，然后在两个表中运行一个UPDATE，避免遍历数十亿行。使用SQLAlchemy，您可以使用^{}创建数据帧的表副本。甚至可以添加连接字段的索引，id，并在末尾删除非常大的临时表。你知道吗

from sqlalchemy import create_engine

engine = create_engine("postgresql+psycopg2://myuser:mypwd!@myhost/mydatabase")

# PUSH TO POSTGRES (SAME NAME AS DF)
clean_df.to_sql(name="clean_df", con=engine, if_exists="replace", index=False)

# SQL UPDATE (USING TRANSACTION)
with engine.begin() as conn:     

    sql = "CREATE INDEX idx_clean_df_id ON clean_df(id)"
    conn.execute(sql)

    sql = """UPDATE tab_tab t
             SET t.clean_int_1 = c.int1,
                 t.clean_int_2 = c.int2,
                 t.updated_date = GETDATE()
             FROM clean_df c
             WHERE c.id = t.id
          """
    conn.execute(sql)

    sql = "DROP TABLE IF EXISTS clean_df"
    conn.execute(sql)

engine.dispose()

相关问题更多 >

编程相关推荐

热门问题

热门文章