提高Python脚本的速度:多线程还是多实例?

2024-03-28 18:15:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个Python脚本,我想每天运行,我希望它只需运行1-2小时。它目前的设置是针对给定的URL命中4个不同的api,捕获结果,然后将数据保存到PostgreSQL数据库中。问题是我有超过160000个URL要通过,而脚本最终花费了相当长的时间——我运行了一些初步测试,以当前格式浏览每个URL需要36个小时。因此,我的问题归结为:我是否应该优化脚本以同时运行多个线程?还是应该扩展我正在使用的服务器数量?显然第二种方法的成本更高,因此我更希望在同一个实例上运行多个线程。在

我使用的是我创建的库(SocialAnalytics),它提供了访问不同API端点和解析结果的方法。下面是如何配置脚本:

import psycopg2
from socialanalytics import pinterest
from socialanalytics import facebook
from socialanalytics import twitter
from socialanalytics import google_plus
from time import strftime, sleep

conn = psycopg2.connect("dbname='***' user='***' host='***' password='***'")
cur = conn.cursor()

# Select all URLs
cur.execute("SELECT * FROM urls;")
urls = cur.fetchall()

for url in urls:

    # Pinterest
    try:
        p = pinterest.getPins(url[2])
    except:
        p = { 'pin_count': 0 }
    # Facebook
    try:
        f = facebook.getObject(url[2])
    except:
        f = { 'comment_count': 0, 'like_count': 0, 'share_count': 0 }
    # Twitter
    try:
        t = twitter.getShares(url[2])
    except:
        t = { 'share_count': 0 }
    # Google
    try:
        g = google_plus.getPlusOnes(url[2])
    except:
        g = { 'plus_count': 0 }

    # Save results
    try:
        now = strftime("%Y-%m-%d %H:%M:%S")
        cur.execute("INSERT INTO social_stats (fetched_at, pinterest_pins, facebook_likes, facebook_shares, facebook_comments, twitter_shares, google_plus_ones) VALUES(%s, %s, %s, %s, %s, %s, %s, %s);", (now, p['pin_count'], f['like_count'], f['share_count'], f['comment_count'], t['share_count'], g['plus_count']))
        conn.commit()
    except:
        conn.rollback()

您可以看到对API的每个调用都使用Requests library,这是一个同步的阻塞事件。经过一些初步研究,我发现了Treq,它是{a4}之上的一个API。Twisted的异步、非阻塞特性似乎是改进我的方法的一个很好的候选者,但是我从来没有用过它,我不确定它到底(如果)能帮助我实现我的目标。在

非常感谢任何指导!在


Tags: 方法fromimport脚本urlsharefacebookcount
1条回答
网友
1楼 · 发布于 2024-03-28 18:15:56

首先,您应该测量脚本在每个步骤上花费的时间。也许你会发现一些有趣的东西:)

其次,您可以将URL分成块:

chunk_size = len(urls)/cpu_core_count; // don't forget about remainder of division

在这些步骤之后,您可以使用multiprocessing并行处理每个块。以下是您的示例:

import multiprocessing as mp

p = mp.Pool(5)

# first solution
for urls_chunk in urls: # urls = [(url1...url6),(url7...url12)...]
    res = p.map(get_social_stat, urls_chunk)
    for record in res:
        save_to_db(record)

# or, simple
res = p.map(get_social_stat, urls)

for record in res:
   save_to_db(record)

另外,gevent可以帮助你。因为它可以优化处理同步阻塞请求序列的时间开销。在

相关问题 更多 >