我试图使用urllib和BeautifulSoup来抓取表,但得到了错误:
““urllib.error.HTTPError:HTTP错误302:HTTP服务器返回了将导致无限循环的重定向错误。上一个30x错误消息是:Found“
我听说这与需要Cookie的网站有关,但我在第二次尝试后仍然遇到此错误:
import urllib.request
from bs4 import BeautifulSoup
import re
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
file = opener.open(testURL).read().decode()
soup = BeautifulSoup(file)
tables = soup.find_all('tr',{'style': re.compile("color:#4A3C8C")})
print(tables)
五点建议:
HTTPCookieProcessor
。在'Mozilla/5.0'
,并将继续重定向。在HTTPError
捕获此类异常。在相关问题 更多 >
编程相关推荐