我遇到了Pandas和向sqldb写入数据帧的性能问题。为了尽可能快,我使用memSQL(代码中类似于MySQL,所以我不必做任何事情)。我刚才对我的实例进行了基准测试:
docker run --rm -it --link=memsql:memsql memsql/quickstart simple-benchmark
Creating database simple_benchmark
Warming up workload
Launching 10 workers
Workload will take approximately 30 seconds.
Stopping workload
42985000 rows inserted using 10 threads
1432833.3 rows per second
那不光彩,只是我的本地笔记本电脑。我知道。。。我也使用根用户,但它是一个丢弃的Docker容器。在
以下是将数据帧写入数据库的代码:
^{pr2}$下面是函数的%time
度量。在
Multi-threading不能加快速度。它保持在7000-8000行/秒的范围内
CPU times: user 2min 6s, sys: 1.69 s, total: 2min 8s Wall time: 2min 18s
我还增加了max_allowed_packet
的大小以批量提交,并使用更大的块大小。还是不快。在
以下是数据帧的形状:
netflow_df2.shape
(1015391, 20)
有人知道我怎样才能更快吗?在
如果有人遇到类似情况:
我删除了SQlalchemy,并对Pandas的
to_sql()
函数使用了(不推荐使用的)MySQL风格。加速比超过120%。我不建议使用这个,但它目前对我有效。在{MySQL如何在MySQL中找到类似的查询mysql.conf版)我会更快的。我应该可以在这里每秒超过50000行。在
^{pr2}$126s之前。38.2秒。在
相关问题 更多 >
编程相关推荐