在Jinja的nl2br过滤器中避免Python UnicodeDecodeError
我正在使用Jinja2的nl2br过滤器,它的用法如下:
import re
from jinja2 import environmentfilter, Markup, escape
_paragraph_re = re.compile(r'(?:\r\n|\r|\n){2,}')
@evalcontextfilter
def nl2br(eval_ctx, value):
result = u'\n\n'.join(u'<p>%s</p>' % p.replace('\n', '<br>\n')
for p in _paragraph_re.split(escape(value)))
if eval_ctx.autoescape:
result = Markup(result)
return result
问题是,如果“value”中有任何非ASCII字符(比如说:"/mɒnˈtænə/"会导致它出错)。我收到了这个错误:
Traceback (most recent call last):
File "/usr/local/lib/python2.6/dist-packages/Flask-0.6.1-py2.6.egg/flask/app.py", line 889, in __call__
return self.wsgi_app(environ, start_response)
File "/usr/local/lib/python2.6/dist-packages/Flask-0.6.1-py2.6.egg/flask/app.py", line 879, in wsgi_app
response = self.make_response(self.handle_exception(e))
File "/usr/local/lib/python2.6/dist-packages/Flask-0.6.1-py2.6.egg/flask/app.py", line 876, in wsgi_app
rv = self.dispatch_request()
File "/usr/local/lib/python2.6/dist-packages/Flask-0.6.1-py2.6.egg/flask/app.py", line 695, in dispatch_request
return self.view_functions[rule.endpoint](**req.view_args)
File "/home/mcrittenden/Dropbox/Code/dropdo/dropdo.py", line 105, in view
return render_template(template, src = url, data = content)
File "/usr/local/lib/python2.6/dist-packages/Flask-0.6.1-py2.6.egg/flask/templating.py", line 85, in render_template
context, ctx.app)
File "/usr/local/lib/python2.6/dist-packages/Flask-0.6.1-py2.6.egg/flask/templating.py", line 69, in _render
rv = template.render(context)
File "/usr/local/lib/python2.6/dist-packages/Jinja2-2.5.5-py2.6.egg/jinja2/environment.py", line 891, in render
return self.environment.handle_exception(exc_info, True)
File "/home/mcrittenden/Dropbox/Code/dropdo/templates/text.html", line 1, in top-level template code
{% extends "layout.html" %}
File "/home/mcrittenden/Dropbox/Code/dropdo/templates/layout.html", line 25, in top-level template code
{% block content %}{% endblock %}
File "/home/mcrittenden/Dropbox/Code/dropdo/templates/text.html", line 8, in block "content"
{{ data|nl2br }}
File "/home/mcrittenden/Dropbox/Code/dropdo/dropdo.py", line 26, in nl2br
for p in _paragraph_re.split(escape(value)))
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc9 in position 12: ordinal not in range(128)
有什么好的办法可以防止这个错误,但又不完全去掉那些问题字符呢?
3 个回答
0
试试 unidecode,链接在这里:http://pypi.python.org/pypi/Unidecode
>>> from unidecode import unidecode
>>> m=u'My fianc\xe9 David'; print m; print unidecode(m)
My fiancé David
My fiance David
>>>
6
如果“value”里面有任何不是ASCII字符的内容,你就希望它在整个应用程序中都是Unicode格式,除了少数地方你需要明确地进行编码或解码。传递Unicode给你的模板也是一样。
如果你以某种方式得到了字符串“/mɒnˈtænə/”,你可能知道它的编码方式;那么就用它:
value = "/mɒnˈtænə/".decode(the_encoding)
。
那么,怎么知道编码呢?一个HTTP请求会知道它的编码,一个XML文件也会知道它的编码。但是一个普通的文本文件通常不知道;你必须通过其他方式来了解它的编码。
需要注意的是,UTF-8并不是Unicode,虽然它是一种可以完全表示Unicode的编码方式。它仍然是一种编码,要从中得到Python的Unicode字符串,你需要用.decode("utf-8")
来处理。
13
在任何地方都要使用 unicode
字符串。