使用Python通过FTP下载大文件

8 投票

3 回答

11298 浏览

提问于 2025-04-17 07:22

我想每天从我的服务器下载一个备份文件到我的本地存储服务器，但遇到了一些问题。

我写了这段代码（去掉了一些没用的部分，比如发送邮件的功能）：

import os
from time import strftime
from ftplib import FTP
import smtplib
from email.MIMEMultipart import MIMEMultipart
from email.MIMEBase import MIMEBase
from email.MIMEText import MIMEText
from email import Encoders

day = strftime("%d")
today = strftime("%d-%m-%Y")

link = FTP(ftphost)
link.login(passwd = ftp_pass, user = ftp_user)
link.cwd(file_path)
link.retrbinary('RETR ' + file_name, open('/var/backups/backup-%s.tgz' % today, 'wb').write)
link.delete(file_name) #delete the file from online server
link.close()
mail(user_mail, "Download database %s" % today, "Database sucessfully downloaded: %s" % file_name)
exit()

然后我用一个定时任务（crontab）来运行它，像这样：

40    23    *    *    *    python /usr/bin/backup-transfer.py >> /var/log/backup-transfer.log 2>&1

这个方法在处理小文件时能正常工作，但在下载备份文件（大约1.7GB）时就卡住了，下载的文件大约到达1.2GB后就不再增加了（我等了大约一天），而且日志文件是空的。

有没有什么建议？

附注：我使用的是Python 2.6.5

ftp 数据传输备份文件定时任务服务器管理 crontab 大文件下载

3 个回答

我用ftplib写了一段代码，这段代码可以监控连接状态，如果连接断开了，它会自动重新连接并重新下载文件。具体的内容可以在这里查看：如何通过ftp在python中下载大文件（带监控和重新连接）？

回答于 2025-04-17 由 Python大师

分享举报

你可以试着设置一个超时时间。来自文档的说明：

# timeout in seconds
link = FTP(host=ftp_host, user=ftp_user, passwd=ftp_pass, acct='', timeout=3600)

回答于 2025-04-17 由 Python大师

分享举报

抱歉我自己回答自己的问题，但我找到了解决办法。

我尝试了ftputil，但没有成功，所以我试了很多方法，最后这个方法有效：

def ftp_connect(path):
    link = FTP(host = 'example.com', timeout = 5) #Keep low timeout
    link.login(passwd = 'ftppass', user = 'ftpuser')
    debug("%s - Connected to FTP" % strftime("%d-%m-%Y %H.%M"))
    link.cwd(path)
    return link

downloaded = open('/local/path/to/file.tgz', 'wb')

def debug(txt):
    print txt

link = ftp_connect(path)
file_size = link.size(filename)

max_attempts = 5 #I dont want death loops.

while file_size != downloaded.tell():
    try:
        debug("%s while > try, run retrbinary\n" % strftime("%d-%m-%Y %H.%M"))
        if downloaded.tell() != 0:
            link.retrbinary('RETR ' + filename, downloaded.write, downloaded.tell())
        else:
            link.retrbinary('RETR ' + filename, downloaded.write)
    except Exception as myerror:
        if max_attempts != 0:
            debug("%s while > except, something going wrong: %s\n \tfile lenght is: %i > %i\n" %
                (strftime("%d-%m-%Y %H.%M"), myerror, file_size, downloaded.tell())
            )
            link = ftp_connect(path)
            max_attempts -= 1
        else:
            break
debug("Done with file, attempt to download m5dsum")
[...]

在我的日志文件中，我发现了：

01-12-2011 23.30 - Connected to FTP
01-12-2011 23.30 while > try, run retrbinary
02-12-2011 00.31 while > except, something going wrong: timed out
    file lenght is: 1754695793 > 1754695793
02-12-2011 00.31 - Connected to FTP
Done with file, attempt to download m5dsum

可惜的是，即使文件已经完全下载，我还是得重新连接到FTP，这对我来说不是问题，因为我还需要下载md5sum。

如你所见，我还没能检测到超时并重试连接，但当我遇到超时时，我会简单地重新连接；如果有人知道怎么在不创建新的ftplib.FTP实例的情况下重新连接，请告诉我；)

回答于 2025-04-17 由 Python大师

分享举报

使用Python通过FTP下载大文件

3 个回答

撰写回答