为什么这段代码在所有网址上都不能工作？

from urllib import request from bs4 import BeautifulSoup #some code here... link = str(input("Enter URL: ")) sock = request.urlopen(link) pageText = sock.read() sock.close() #some code here... file = open("C:/test.txt", 'w') file.write(pageText.decode("utf-8")) #some code here...

Traceback (most recent call last): File "C:/Users/Monster/PycharmProjects/TestPro_1/Testfile.py", line 16, in <module> file.write(pageText.decode("utf-8")) File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 413334-413340: character maps to <undefined>

1条回答

网友

1楼 · 发布于 2024-04-17 21:06:54

问题是您试图用cp1252编码写入文本文件，但是您的数据包含cp1252中不存在的字符。你知道吗

在Python中，^{}函数对文本文件采用可选的encoding参数。正如文件所说，如果你没有具体说明：

The default encoding is platform dependent (whatever locale.getpreferredencoding() returns)

在Windows上，该函数返回的“首选编码”将是您为系统设置的默认值。在美国版本的Windows上，如果您没有更改设置，那么预先配置的默认值是“codepage1252”，这是微软对IBM拉丁语-1的变体。它只能处理256个不同的字符（与Unicode中的前256个字符几乎相同，但不完全相同）。如果你有任何其他字符，你会得到一个错误。你知道吗

这种方法在某些页面上有效，但在其他页面上无效的原因是，有些页面只有适合每个字符集的普通英文字符。你知道吗

如果确实要保存UTF-8文本文件，则必须明确执行以下操作：

f = open('C:/test.txt', 'w', encoding='utf-8')
f.write(pageText.decode('utf-8'))

如果要保存cp1252文本文件，或者不管系统的默认编码是什么（可能是UTF-8），如果有人通过跳过、替换或转义不适合cp1252的字符在Mac上运行您的脚本，或者在日语Windows框中运行基于Shift-JIS的cp932，您也可以这样做：

f = open('C:/test.txt', 'w', errors='replace')
f.write(pageText.decode('utf-8'))

当然，如果您想要cp1252，无论系统设置为什么，都可以这样说：

f = open('C:/test.txt', 'w', encoding='cp1252', errors='replace')
f.write(pageText.decode('utf-8'))

如果要保存原始字节而不必担心它们是什么，请以二进制模式打开文件，不要首先decode字节：

f = open('C:/test.txt', 'wb')
f.write(pageText)

当然，如果你在cp1252（或Shift-JIS等）文本编辑器中打开这个文件，它看起来会像mojibake…但这不再是你程序的错了。：）

不过，你还有一个问题。假设每个网页都是UTF-8。那不是真的。事实上，HTML5之前的web页面默认使用拉丁语1，但是它们可以在标题中指定不同的编码（或者在meta标记中，或者对于XHTML，在顶级XML标记中）。特别是，在Facebook页面上尝试以下操作：

>>> print(sock.getheader('Content-Type'))
'text/html; charset=utf-8'

所以你知道，在这种情况下，是UTF-8。你知道吗

对于HTML5，它是…a lot more complicated。理想情况下，您会希望使用一个库来为您实现这一点。（由于您已经在使用BeautifulSoup，在许多常见情况下，它的“Unicode，dammit”会很好地工作，对于HTML5之前的版本也很好，但是标准正确的实现更好。）

相关问题更多 >

编程相关推荐

热门问题

热门文章