擅长:python、mysql、java
<p><code>0xa0</code>或unicode表示法中的U+00A0是字符不间断空格。在UTF8中,它表示为<code>b'\xc2\xa0'</code>。如果您发现它是一个原始字节,这可能意味着您的输入不是UTF8编码,而是Latin1编码。</p>
<p>在链接页面上快速查看显示它确实是拉丁语编码的-但我得到了一个法语版本。。。</p>
<p>不确定确切转换时的规则是使用替换错误处理:</p>
<pre><code>data1=data.decode("utf-8", errors="replace")
</code></pre>
<p>然后,所有有问题的字符都被替换字符(U+FFFD)替换(显示为)。如果只找到很少的字符,则表示页面包含错误字符,但如果几乎所有非ascii字符都被替换,则表示编码不是UTF8。对于西欧语言来说,If通常是拉丁语,但对于其他语言,您的里程数可能会有所不同。</p>