如何在web抓取html页面时处理非类型对象

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "Upgrade-Insecure-Requests":"1"} url= 'https://editorial.rottentomatoes.com/guide/best-sci-fi-movies-of-all-time/' r = requests.get(url, headers=headers)#, proxies=proxies) content = r.content soup = BeautifulSoup(content) director = [] for d in soup.find_all('div', attrs={'class': 'info director'}): for a in d.find('a'): director.append(a) print(a)

1条回答

网友
1楼 · 发布于 2024-05-14 21:08:12

代码中的d.find('a')未返回iterable对象，这将导致python中出现错误。您应该使用find_all('a')而不是find('a')
您的代码应该如下所示：
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "Upgrade-Insecure-Requests":"1"} url= 'https://editorial.rottentomatoes.com/guide/best-sci-fi-movies-of-all-time/' r = requests.get(url, headers=headers)#, proxies=proxies) content = r.content soup = BeautifulSoup(content) director = [] for d in soup.find_all('div', attrs={'class': 'info director'}): for a in d.find_all('a'): director.append(a.string) print(a.string)

相关问题更多 >

编程相关推荐

热门问题

热门文章