如何在Python中将任意编码转换为UTF-8?
我正在从不同的网站抓取网页,这些网页的编码方式各不相同。以下是我遇到的一些编码类型:
- Big5
- TIS-620
- utf-16le
- shift_JIS
- EUC-JP
- MacCyrillic
- koi8-r
除了这些,还有一些更常见的编码方式。我可以通过使用上述编码来解码,获取网页的unicode源代码。
我的问题是:我想把所有文件都存储为utf8格式。如果我用utf8对unicode源代码进行编码,这样做对所有网页都有效吗?utf8是否支持所有的unicode编码点?
2 个回答
4
没错,UTF-8 就是一种把数字存储成字节的方式,简单来说,就是小的数字用的字节少一点。这样一来,数字小于 128 的时候,就只用一个字节存储,这样 ASCII 字符还是保持不变。UTF-8 可以表示所有的 Unicode 代码点,也就是可以表示各种语言和符号。
1
简单明了,........ 是的!