如何在Python中将任意编码转换为UTF-8?

2 投票
2 回答
1225 浏览
提问于 2025-04-16 23:03

我正在从不同的网站抓取网页,这些网页的编码方式各不相同。以下是我遇到的一些编码类型:

  • Big5
  • TIS-620
  • utf-16le
  • shift_JIS
  • EUC-JP
  • MacCyrillic
  • koi8-r

除了这些,还有一些更常见的编码方式。我可以通过使用上述编码来解码,获取网页的unicode源代码。

我的问题是:我想把所有文件都存储为utf8格式。如果我用utf8对unicode源代码进行编码,这样做对所有网页都有效吗?utf8是否支持所有的unicode编码点?

2 个回答

4

没错,UTF-8 就是一种把数字存储成字节的方式,简单来说,就是小的数字用的字节少一点。这样一来,数字小于 128 的时候,就只用一个字节存储,这样 ASCII 字符还是保持不变。UTF-8 可以表示所有的 Unicode 代码点,也就是可以表示各种语言和符号。

1

简单明了,........ 是的!

撰写回答