用Python实现Kindle的文本编码

2024-04-20 02:05:39 发布

您现在位置:Python中文网/ 问答频道 /正文

基本上,我用python用Beautifulsoup从网页上抓取文本,然后将其保存为HTML并作为邮件附件发送到Kindle。问题是,Kindle支持拉丁文1(ISO-8859-1)编码,但是我解析的文本包含的字符不是拉丁文1的一部分。因此,当我尝试将文本编码为Latin1时,由于非法字符,python会出现以下错误:

UnicodeEncodeError: 'latin-1' codec can't encode character u'\u2019' in position 17: ordinal not in range(256)

当我尝试将其编码为UTF-8时,这次脚本运行得非常完美,但是Kindle用乱码替换了一些不兼容的字符。你知道吗


Tags: in文本网页编码html错误iso字符