如何在Python中将任意编码转换为UTF-8？

2 投票

2 回答

1225 浏览

提问于 2025-04-16 23:03

我正在从不同的网站抓取网页，这些网页的编码方式各不相同。以下是我遇到的一些编码类型：

除了这些，还有一些更常见的编码方式。我可以通过使用上述编码来解码，获取网页的unicode源代码。

我的问题是：我想把所有文件都存储为utf8格式。如果我用utf8对unicode源代码进行编码，这样做对所有网页都有效吗？utf8是否支持所有的unicode编码点？

数据存储 unicode utf-8 编码转换网页抓取文本编码字符集支持编码类型

2 个回答

没错，UTF-8 就是一种把数字存储成字节的方式，简单来说，就是小的数字用的字节少一点。这样一来，数字小于 128 的时候，就只用一个字节存储，这样 ASCII 字符还是保持不变。UTF-8 可以表示所有的 Unicode 代码点，也就是可以表示各种语言和符号。

回答于 2025-04-16 由 Python大师

分享举报

简单明了，........ 是的!

回答于 2025-04-16 由 Python大师

分享举报