如何在Python CGI中找到上传的文件名

3 投票

3 回答

10526 浏览

提问于 2025-04-16 02:08

我做了一个简单的网页服务器，代码如下：

import BaseHTTPServer, os, cgi
import cgitb; cgitb.enable()

html = """
<html>
<body>
<form action="" method="POST" enctype="multipart/form-data">
File upload: <input type="file" name="upfile">
<input type="submit" value="upload">
</form>
</body>
</html>
"""
class Handler(BaseHTTPServer.BaseHTTPRequestHandler):
    def do_GET(self):
        self.send_response(200)
        self.send_header("content-type", "text/html;charset=utf-8")
        self.end_headers()
        self.wfile.write(html)

    def do_POST(self):
        ctype, pdict = cgi.parse_header(self.headers.getheader('content-type'))
        if ctype == 'multipart/form-data':
            query = cgi.parse_multipart(self.rfile, pdict)
            upfilecontent = query.get('upfile')
            if upfilecontent:
                # i don't know how to get the file name.. so i named it 'tmp.dat'
                fout = file(os.path.join('tmp', 'tmp.dat'), 'wb')
                fout.write (upfilecontent[0])
                fout.close()
        self.do_GET()

if __name__ == '__main__':
    server = BaseHTTPServer.HTTPServer(("127.0.0.1", 8080), Handler)
    print('web server on 8080..')
    server.serve_forever()

在BaseHTTPRequestHandler的do_Post方法里，我成功获取到了上传的文件数据。

但是我不知道怎么才能得到上传文件的原始名称。

self.rfile.name 只是一个“socket”，我该怎么才能获取上传文件的名称呢？

cgi http请求文件上传服务器编程原始文件名

3 个回答

...或者你可以使用自己版本的 cgi.parse_multipart，特别是修复这个：

    # my fix: prefer 'filename' over 'name' field!
    if 'filename' in params:
        name = params['filename']
        name = os.path.basename(name) # Edge, IE return abs path!
    elif 'name' in params:
        name = params['name']
    else:
        continue

回答于 2025-04-16 由 Python大师

分享举报

通过使用 cgi.FieldStorage，你可以很方便地提取文件名。下面是一个例子：

def do_POST(self):
    ctype, pdict = cgi.parse_header(self.headers.getheader('content-type'))
    if ctype == 'multipart/form-data':
        form = cgi.FieldStorage( fp=self.rfile, headers=self.headers, environ={'REQUEST_METHOD':'POST', 'CONTENT_TYPE':self.headers['Content-Type'], })
        filename = form['upfile'].filename
        data = form['upfile'].file.read()
        open("./%s"%filename, "wb").write(data)
    self.do_GET()

回答于 2025-04-16 由 Python大师

分享举报

你用的这段代码真是有点问题，作为起点不太合适（比如那个 global rootnode，里面的名字 rootnode 根本没用到——显然是半途而废的代码，写得也很糟糕）。

不过，你在“客户端”用的是什么形式来进行 POST 请求呢？它是怎么设置那个 upfile 字段的？

为什么不使用正常的 FieldStorage 方法呢？在 Python 的文档中有详细说明。这样的话，你可以用相应字段的 .file 属性来获取一个像文件一样的对象进行读取，或者用 .value 属性把内容全部读入内存并作为字符串获取，还可以通过 .filename 属性知道上传文件的名字。关于 FieldStorage 的更详细但简洁的文档可以在这里找到。

编辑：现在提问者已经修改了问题以澄清，我看到了问题所在：BaseHTTPServer 并没有按照 CGI 规范设置环境变量，所以 cgi 模块在这方面的使用效果不太好。不幸的是，设置环境变量的简单方法就是从 CGIHTTPServer.py 中偷一大段代码并进行修改（这段代码并不是为了重用而写的，所以不得不进行复制粘贴），例如……：

def populenv(self):
        path = self.path
        dir, rest = '.', 'ciao'

        # find an explicit query string, if present.
        i = rest.rfind('?')
        if i >= 0:
            rest, query = rest[:i], rest[i+1:]
        else:
            query = ''

        # dissect the part after the directory name into a script name &
        # a possible additional path, to be stored in PATH_INFO.
        i = rest.find('/')
        if i >= 0:
            script, rest = rest[:i], rest[i:]
        else:
            script, rest = rest, ''

        # Reference: http://hoohoo.ncsa.uiuc.edu/cgi/env.html
        # XXX Much of the following could be prepared ahead of time!
        env = {}
        env['SERVER_SOFTWARE'] = self.version_string()
        env['SERVER_NAME'] = self.server.server_name
        env['GATEWAY_INTERFACE'] = 'CGI/1.1'
        env['SERVER_PROTOCOL'] = self.protocol_version
        env['SERVER_PORT'] = str(self.server.server_port)
        env['REQUEST_METHOD'] = self.command
        uqrest = urllib.unquote(rest)
        env['PATH_INFO'] = uqrest
        env['SCRIPT_NAME'] = 'ciao'
        if query:
            env['QUERY_STRING'] = query
        host = self.address_string()
        if host != self.client_address[0]:
            env['REMOTE_HOST'] = host
        env['REMOTE_ADDR'] = self.client_address[0]
        authorization = self.headers.getheader("authorization")
        if authorization:
            authorization = authorization.split()
            if len(authorization) == 2:
                import base64, binascii
                env['AUTH_TYPE'] = authorization[0]
                if authorization[0].lower() == "basic":
                    try:
                        authorization = base64.decodestring(authorization[1])
                    except binascii.Error:
                        pass
                    else:
                        authorization = authorization.split(':')
                        if len(authorization) == 2:
                            env['REMOTE_USER'] = authorization[0]
        # XXX REMOTE_IDENT
        if self.headers.typeheader is None:
            env['CONTENT_TYPE'] = self.headers.type
        else:
            env['CONTENT_TYPE'] = self.headers.typeheader
        length = self.headers.getheader('content-length')
        if length:
            env['CONTENT_LENGTH'] = length
        referer = self.headers.getheader('referer')
        if referer:
            env['HTTP_REFERER'] = referer
        accept = []
        for line in self.headers.getallmatchingheaders('accept'):
            if line[:1] in "\t\n\r ":
                accept.append(line.strip())
            else:
                accept = accept + line[7:].split(',')
        env['HTTP_ACCEPT'] = ','.join(accept)
        ua = self.headers.getheader('user-agent')
        if ua:
            env['HTTP_USER_AGENT'] = ua
        co = filter(None, self.headers.getheaders('cookie'))
        if co:
            env['HTTP_COOKIE'] = ', '.join(co)
        # XXX Other HTTP_* headers
        # Since we're setting the env in the parent, provide empty
        # values to override previously set values
        for k in ('QUERY_STRING', 'REMOTE_HOST', 'CONTENT_LENGTH',
                  'HTTP_USER_AGENT', 'HTTP_COOKIE', 'HTTP_REFERER'):
            env.setdefault(k, "")
        os.environ.update(env)

这部分代码其实可以进一步简化，但需要花一些时间和精力去做这件事 :-(。

有了这个 populenv 函数，我们可以重新编码：

def do_POST(self):
    populen(self)
    form = cgi.FieldStorage(fp=self.rfile)
    upfilecontent = form['upfile'].value
    if upfilecontent:
        fout = open(os.path.join('tmp', form['upfile'].filename), 'wb')
        fout.write(upfilecontent)
        fout.close()
    self.do_GET()

……然后就可以过上幸福的生活了 ;-)。当然，使用任何一个合适的 WSGI 服务器，甚至是演示版的，会简单得多，但这个练习确实对理解 CGI 及其内部工作原理很有帮助 ;-）。

回答于 2025-04-16 由 Python大师

分享举报

如何在Python CGI中找到上传的文件名

3 个回答

撰写回答