我正在使用BeautifulSoup从HTML中提取一些文本,但我只是不知道如何将其正确地打印到屏幕上(或者打印到一个文件中)。
下面是包含文本的类的外观:
class Thread(object):
def __init__(self, title, author, date, content = u""):
self.title = title
self.author = author
self.date = date
self.content = content
self.replies = []
def __unicode__(self):
s = u""
for k, v in self.__dict__.items():
s += u"%s = %s " % (k, v)
return s
def __repr__(self):
return repr(unicode(self))
__str__ = __repr__
当试图打印Thread
的实例时,我在控制台上看到的是:
~/python-tests $ python test.py
u'date = 21:01 03/02/11 content = author = \u05d3"\u05e8 \u05d9\u05d5\u05e0\u05d9 \u05e1\u05d8\u05d0\u05e0\u05e6\'\u05e1\u05e7\u05d5 replies = [] title = \u05de\u05d1\u05e0\u05d4 \u05d4\u05de\u05d1\u05d7\u05df '
无论我尝试什么,我都无法得到我想要的输出(上面的文本应该是希伯来语)。我的最终目标是将Thread
序列化为一个文件(使用json或pickle),并能够将其读回。
我在Ubuntu 10.10上用Python 2.6.6运行这个。
与@mark的答案不同的是,设置环境变量
PYTHONIOENCODING=UTF-8
。c.f。Writing unicode strings via sys.stdout in Python。
(请确保在启动脚本中没有的Python之前设置它。)
要将Unicode字符串输出到文件(或控制台),需要选择文本编码。在Python中,默认的文本编码是ASCII,但是要支持希伯来语字符,您需要使用不同的编码,例如UTF-8:
相关问题 更多 >
编程相关推荐