使用Python将HTTP请求响应导入SQLite3数据库的最有效方法是什么？

1条回答

网友

1楼 · 发布于 2024-05-16 05:46:32

有这么多未知数，你的问题没有明确的答案，但我可以概述一下如何找到答案。在

影响绩效的因素

如您所述，处理是分阶段完成的（我现在将抽象出实际的格式，原因稍后再介绍）：

从远程服务获取数据
解析数据
转换数据
存储到本地数据库

对于每个阶段，都有一些限制因素不允许您提高处理速度。在

对于获取数据，其中一些是：

网络带宽。在
远程服务器支持的并行性：远程服务器可能会限制单个用户的连接和/或总速度，或者根据使用条款在客户端限制这一点。在
下载时使用的数据格式。不同的格式会添加各自数量的不需要的/样板格式和/或通过网络发送的数据。这取决于服务和它的API，但是返回的XML可能比JSON小，所以对于您的特定情况，即使是XML也通常更详细，XML更好。在
RAM数量（和交换速度）可能是您系统的一个限制（非常不可能），因为因素1和2没有限制您。在这种情况下，下载的日期可能不适合RAM，将被交换到磁盘，这将减慢下载过程。在

用于分析数据：

RAM金额（与上述原因相同）
使用的数据格式。在
使用的分析器。例如，JSON的不同解析器实现具有不同的速度。在
CPU功率：处理单元的速度和数量。在

对于数据转换：

RAM数量
CPU功率

对于数据存储：

磁盘速度
数据库高效支持的并行级别

这些并不是限制处理速度的所有因素，而是一些最明显的因素。还有一些其他未知的限制。在

此外，在阶段之间传递数据时可能会有一些开销。这取决于设计。在某些设计中（例如从远程服务器读取数据、在内存中处理数据并将其存储到数据库的单个进程）开销可能为零，但在某些设计中（多个进程读取数据并将其存储到文件中，另一组进程打开这些文件并处理它们等等），开销可能相当大。在

处理的最终速度由最慢的阶段的速度或阶段之间通过的数据的速度来定义。在

在设计解决方案或在多个设计中进行选择时，并非所有这些因素都可以预测。考虑到还有未知因素，这就更复杂了。在

接近

为了系统化，我将使用以下方法：

创建简单的解决方案（如单个进程读取数据进程并存储到数据库）
使用该解决方案求出每个阶段的处理速度
当你有每个阶段的处理速度时，看看最慢的阶段（注意，只有最慢的阶段才有意义，因为它定义了总体速度）
然后找到
- 为什么这么慢？在
- 是什么限制了速度？如果可以改进的话？在
- 这个阶段的理论极限是什么？（例如，如果你有一个1Gb的网络和一个处理盒，你不能以超过120MB/s的速度读取数据，实际上它会更小）。在
改进。改善通常是
- 优化单处理器的处理（如选择更好的格式或库进行解析，删除可以避免的操作等）。如果达到（或接近）处理速度的理论极限，则不能使用此选项。在
- 添加更多并行性

一般来说，当你试图优化一些东西时，你需要有一些数字，并在重新做实验。在

平行性

Python

在选择线程和进程时应该小心。例如，对于CPU密集型任务，线程是not good。查看有关此Multiprocessing vs Threading Python的详细信息

SQLite

当多个进程使用单个数据库时，SQLite可能有some limitations。你需要检查它是否是你速度的限制因素。也许您需要使用另一个更适合并行性的数据库，然后作为附加的最后一步，将数据从其中一次性转储到SQLite（这只需要按顺序读取数据并将其存储在SQLite中，如果与并行写入单个SQLite DB相比，效率可能会更高）。在

影响绩效的因素

接近

平行性

Python

SQLite

相关问题更多 >

编程相关推荐

热门问题

热门文章