我需要刮擦。具体来说,我使用Pycurl和BytesIO
以下代码:
c = pycurl.Curl()
page = BytesIO()
c.setopt(c.INTERFACE, "tun0")
c.setopt(c.USERAGENT, userAgent)
c.setopt(pycurl.CAINFO, certifi.where())
c.setopt(c.URL, URL)
c.setopt(c.WRITEDATA, page)
c.perform()
直到昨天,page.getvalue()
将返回页面的html,然后将其传递给bs4。但今天,我注意到它返回一个字节字符串,我甚至无法将其解码为utf-8,因为它返回一个错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
如何在字符串类型中获取url的内容,以便将其传递给bs4和scrape
您检索到的数据无效UTF-8,因此无法自动解码
相关问题 更多 >
编程相关推荐