我想问一下,如果在for循环中执行commit,为什么下面的语句会给出磁盘I/O消息?如果在for循环之外执行commit,则不会出现错误。在
错误消息:
Traceback (most recent call last):
File "D:\Dropbox\Public\EBOOK\Python\Learn\SQLITE_DB\ParsedJSON\ParsedJSON.py"
, line 71, in <module>
conn.commit()
sqlite3.OperationalError: disk I/O error
代码
^{pr2}$完整代码
import json
import sqlite3
conn = sqlite3.connect('rosterdb.sqlite')
cur = conn.cursor()
# Do some setup
cur.executescript('''
DROP TABLE IF EXISTS User;
DROP TABLE IF EXISTS Member;
DROP TABLE IF EXISTS Course;
CREATE TABLE User (
id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
name TEXT UNIQUE
);
CREATE TABLE Course (
id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
title TEXT UNIQUE
);
CREATE TABLE Member (
user_id INTEGER,
course_id INTEGER,
role INTEGER,
PRIMARY KEY (user_id, course_id)
)
''')
fname = raw_input('Enter file name: ')
if ( len(fname) < 1 ) : fname = 'roster_data.json'
str_data = open(fname).read()
json_data = json.loads(str_data)
for entry in json_data:
name = entry[0];
title = entry[1];
role = entry[2];
print name, title, role
cur.execute('''INSERT OR IGNORE INTO User (name)
VALUES ( ? )''', ( name, ) )
cur.execute('SELECT id FROM User WHERE name = ? ', (name, ))
user_id = cur.fetchone()[0]
cur.execute('''INSERT OR IGNORE INTO Course (title)
VALUES ( ? )''', ( title, ) )
cur.execute('SELECT id FROM Course WHERE title = ? ', (title, ))
course_id = cur.fetchone()[0]
cur.execute('''INSERT OR REPLACE INTO Member
(user_id, course_id, role) VALUES ( ?, ?, ? )''',
( user_id, course_id, role ) )
conn.commit()
我很好奇提交I/O实际上有多大的影响,所以我用一些模拟的JSON运行了一些测试,这些JSON与以下格式匹配:
}
我的结果很有启发性。这些是10次测试的平均时间:
以及
我用大约10万条记录做了测试。在
当.commit()在循环外时:
在循环中使用.commit():
请理解,在循环外使用.commit()时,此示例还涉及到102150次磁盘写入。当commit()在外部时,它会延迟对数据库的写入,直到所有操作完成并得到缓冲。在内部,它在每次迭代完成后立即写入数据库文件。在
此外,在每个commit()之间,sqlite正在创建一个日志文件(在本例中为'罗斯特数据库.sqlite-journal'),因此您还需要为每个commit()创建和删除此附加文件,这会增加对硬件和性能的影响。(如果您很好奇,您可以观察这个文件在数据库存在的任何目录中的每次迭代出现和消失。)
所以把commit()放在外面对您的硬件来说是非常方便的。至于它为什么会返回磁盘I/O错误,我认为这与那些提交()的速度和频率有关。在
相关问题 更多 >
编程相关推荐