Pandas to_sql()性能为什么这么慢?

2024-04-29 04:18:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我遇到了Pandas和向sqldb写入数据帧的性能问题。为了尽可能快,我使用memSQL(代码中类似于MySQL,所以我不必做任何事情)。我刚才对我的实例进行了基准测试:

docker run --rm -it --link=memsql:memsql memsql/quickstart simple-benchmark
Creating database simple_benchmark
Warming up workload
Launching 10 workers
Workload will take approximately 30 seconds.
Stopping workload
42985000 rows inserted using 10 threads
1432833.3 rows per second

那不光彩,只是我的本地笔记本电脑。我知道。。。我也使用根用户,但它是一个丢弃的Docker容器。在

以下是将数据帧写入数据库的代码:

^{pr2}$

下面是函数的%time度量。在

Multi-threading不能加快速度。它保持在7000-8000行/秒的范围内

CPU times: user 2min 6s, sys: 1.69 s, total: 2min 8s Wall time: 2min 18s

截图: memSQL shows the speed

我还增加了max_allowed_packet的大小以批量提交,并使用更大的块大小。还是不快。在

以下是数据帧的形状:

netflow_df2.shape
(1015391, 20)

有人知道我怎样才能更快吗?在


Tags: 数据实例代码pandastimemysql性能simple
1条回答
网友
1楼 · 发布于 2024-04-29 04:18:45

如果有人遇到类似情况:

我删除了SQlalchemy,并对Pandas的to_sql()函数使用了(不推荐使用的)MySQL风格。加速比超过120%。我不建议使用这个,但它目前对我有效。在

import MySQLdb

import mysql.connector
from sqlalchemy import create_engine
from pandas.util.testing import test_parallel

engine = MySQLdb.connect("127.0.0.1","root","","netflow_test")

# engine = create_engine('mysql+mysqlconnector://root@localhost:3306/netflow_test', echo=False)

# @test_parallel(num_threads=8)
def commit_flows(netflow_df2):
    % time netflow_df2.to_sql(name='netflow_ids', flavor='mysql', con=engine, if_exists = 'append', index=False, chunksize=50000)
commit_flows(netflow_df2)

{MySQL如何在MySQL中找到类似的查询mysql.conf版)我会更快的。我应该可以在这里每秒超过50000行。在

^{pr2}$

126s之前。38.2秒。在

相关问题 更多 >