打印 UTF-8 编码的字符串

29 投票
2 回答
90185 浏览
提问于 2025-04-16 13:03

我正在用BeautifulSoup从HTML中提取一些文本,但我就是搞不清楚怎么把它正确地打印到屏幕上(或者说写到文件里)。

这是我用来存放文本的类的样子:

class Thread(object):
    def __init__(self, title, author, date, content = u""):
        self.title = title
        self.author = author
        self.date = date
        self.content = content
        self.replies = []

    def __unicode__(self):
        s = u""

        for k, v in self.__dict__.items():
            s += u"%s = %s " % (k, v)

        return s

    def __repr__(self):
        return repr(unicode(self))

    __str__ = __repr__

当我尝试打印一个Thread的实例时,控制台上显示的是这个:

~/python-tests $ python test.py
u'date = 21:01 03/02/11 content =  author = \u05d3"\u05e8 \u05d9\u05d5\u05e0\u05d9 \u05e1\u05d8\u05d0\u05e0\u05e6\'\u05e1\u05e7\u05d5 replies = [] title = \u05de\u05d1\u05e0\u05d4 \u05d4\u05de\u05d1\u05d7\u05df '

无论我怎么尝试,我都无法得到我想要的输出(上面的文本应该是希伯来语)。我的最终目标是把Thread序列化到一个文件里(用json或者pickle),然后能够再读取回来。

我是在Ubuntu 10.10上用Python 2.6.6运行这个的。

2 个回答

11

一个不错的替代方案是设置一个环境变量 PYTHONIOENCODING=UTF-8

参考在Python中通过sys.stdout写入unicode字符串

(确保在启动Python之前设置这个环境变量,而不是在脚本中设置。)

27

要把一个Unicode字符串输出到文件或者控制台,你需要选择一种文本编码。在Python中,默认的文本编码是ASCII,但如果你想支持希伯来字符,就需要使用其他的编码,比如UTF-8:

s = unicode(your_object).encode('utf8')
f.write(s)

撰写回答