使用命名变量和批量插入的Postgres Python

Question

我需要一些帮助，想了解一下Python和Postgres是如何处理事务和批量插入的，特别是在一次事务中插入多个数据集的情况。

操作系统：Windows 7 64位
Python版本：3.2
Postgresql版本：9.1
使用的库：psycopg2

这是我的情况：我正在把一个数据库（Oracle）中的数据转换成XML字符串，然后把这些数据插入到一个新的数据库（Postgres）中。因为数据量很大，所以我想优化我的插入操作。我把这些数据看作是图书馆类型的对象，所以我有一个图书馆表，还有用于存储XML元数据和内容的表，这些数据在数据库中的字段类型都是文本。我从Oracle中提取数据，然后创建我需要插入的数据字典。我有三个插入语句，第一个插入语句在图书馆表中创建一条记录，使用一个序列ID，而这个ID在接下来的两个查询中插入XML到元数据和内容表时是必需的。下面是我所说的一个例子：

for inputKey in libDataDict.keys():
  metaString = libDataDict[inputKey][0]
  contentString = libDataDict[inputKey][1]
  insertLibDataList.append({'objIdent':"%s" % inputKey, 'objName':"%s" % inputKey, objType':libType})
  insertMetadataDataList.append({'objIdent':inputKey,'objMetadata':metaString}) 
  insertContentDataList.append({'objIdent':inputKey, 'objContent':contentString})

dataDict['cmsLibInsert'] = insertLibDataList
dataDict['cmsLibMetadataInsert'] = insertMetadataDataList
dataDict['cmsLibContentInsert'] = insertContentDataList

sqlDict[0] = {'sqlString':"insert into cms_libraries (cms_library_ident, cms_library_name, cms_library_type_id, cms_library_status_id) \
              values (%(objIdent)s, %(objName)s, (select id from cms_library_types where cms_library_type_name = %(objType)s), \
              (select id from cms_library_status where cms_library_status_name = 'active'))", 'data':dataDict['cmsLibInsert']}

sqlDict[1] = {'sqlString':"insert into cms_library_metadata (cms_library_id, cms_library_metadata_data) values \
              ((select id from cms_libraries where cms_library_ident = %(objIdent)s), $$%(objMetadata)s$$)", \
              'data':dataDict['cmsLibMetadataInsert']}

sqlDict[2] = {'sqlString':"insert into cms_library_content (cms_library_id, cms_library_content_data) values \
              ((select id from cms_libraries where cms_library_ident = %(objIdent)s), $$%(objContent)s$$)", \
              'data':dataDict['cmsLibContentInsert']}

bulkLoadData(myConfig['pgConn'], myConfig['pgCursor'], sqlDict)

我遇到的问题是，当我运行第一个查询(sqlDict[0])并进行插入时，只要我分开执行并在运行接下来的两个查询之前提交，所有操作都能正常进行。理想情况下，我希望所有这些查询都在同一个事务中，但它失败了，因为在第二和第三个查询中找不到cms_libraries表的ID。这是我目前的插入代码：

def bulkLoadData(dbConn, dbCursor, sqlDict):
 try:
   libInsertSql = sqlDict.pop(0)
   dbSql = libInsertSql['sqlString']
   data = libInsertSql['data']
   dbCursor.executemany(dbSql, data)
   dbConn.commit()
   for sqlKey in sqlDict:
     dbSql = sqlDict[sqlKey]['sqlString']
     data = sqlDict[sqlKey]['data']
     dbCursor.executemany(dbSql, data)

   dbConn.commit()

之前我是在查询中追加值，然后为每个插入运行一个查询。这样做的话，我可以把所有操作放在同一个事务中，并且能找到生成的ID，一切都很好。我不明白为什么在使用executemany()进行批量插入时找不到ID？有没有办法在同一个事务中进行批量插入和其他两个查询？

我一直在阅读相关文档，并在StackOverflow和互联网上搜索，但没有找到解决我问题的答案： pyscopg文档还有Postgres的： Postgresql字符串文档

任何帮助、建议或评论都将不胜感激。谢谢， Mitch

数据库批量插入 XML psycopg2 数据库优化 postgres 数据转换事务处理

使用命名变量和批量插入的Postgres Python

1 个回答

撰写回答