urllib查询返回的数据编码不正确

import urllib.request import json url = 'https://www.google.com/search?q=Blue+tit+(Cyanistes+caeruleus),+Parc+du+Rouge-Clo%C3%AEtre,+Brussels+(32781868883).jpg&source=lnms&tbm=isch&sa=X&ved=0ahUKEwiE8866stfjAhWBolwKHQ1YCdQQ_AUIESgB&biw=1920&bih=937' headers = {} headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36' request = urllib.request.Request(url, headers=headers) response = urllib.request.urlopen(request) data = str(response.read()) start_line = data.find('class="rg_meta notranslate">') start_obj = data.find('{', start_line + 1) end_obj = data.find('</div>', start_obj + 1) raw_obj = str(data[start_obj:end_obj]) decoded_obj = bytes(raw_obj, 'utf-8').decode('unicode_escape') final_obj = json.loads(decoded_obj) print(final_obj)

1条回答

网友
1楼 · 发布于 2024-05-13 21:27:09

响应数据由UTF-8编码字节组成：
>>> response = urllib.request.urlopen(request) >>> res = response.read() >>> type(res) <class 'bytes'> >>> response.headers <http.client.HTTPMessage object at 0x7ff6ea74ba90> >>> response.headers['Content-type'] 'text/html; charset=UTF-8'
正确的处理方法是解码响应数据：
>>> data = response.read().decode('utf-8')
一旦这样做了，data就是一个str并且不需要任何进一步的解码或编码（或str()或bytes()调用）
通常，在bytes实例上调用str是错误的，除非提供适当的编码：
>>> s = 'spam' >>> bs = s.encode('utf-8') >>> str(bs) "b'spam'" # Now 'b' is inside the string >>> >>> str(bs, encoding='utf-8') 'spam'

相关问题更多 >

编程相关推荐

热门问题

热门文章