在跨多个页面时抓取数据时出现问题

import requests from bs4 import BeautifulSoup url = "Link to replace with the above url" ##Replace the number 2 links here formdata = { 'searchEntity':'FundServiceProvider', 'searchType':'Name', 'searchText':'', 'registers':'6,29,44,45', 'AspxAutoDetectCookieSupport':'1' } req = requests.get(url,params=formdata,headers={"User-Agent":"Mozilla/5.0"}) soup = BeautifulSoup(req.text,"lxml") VIEWSTATE = soup.select("#__VIEWSTATE")[0]['value'] EVENTVALIDATION = soup.select("#__EVENTVALIDATION")[0]['value'] payload = { '__EVENTTARGET':'','__EVENTARGUMENT':'','__LASTFOCUS':'','__VIEWSTATE':VIEWSTATE,'__SCROLLPOSITIONX':'0','__SCROLLPOSITIONY':'541','__EVENTVALIDATION':EVENTVALIDATION,'ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$ddlPages':1,'ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$btnNext.x':'260','ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$btnNext.y':'11' } with requests.session() as session: session.headers = {"User-Agent":"Mozilla/5.0"} response = session.post(req.url,data=payload) soup = BeautifulSoup(response.text,"lxml") tabd = soup.select(".searchresults")[0] for items in tabd.select("tr")[:-1]: data = ' '.join([item.text for item in items.select("th,td")]) print(data)

1条回答

网友

1楼 · 发布于 2024-04-20 12:38:24

您只需删除负载数据的最后2个字段：

payload = {
    '__EVENTTARGET':'',
    '__EVENTARGUMENT':'',
    '__LASTFOCUS':'',
    '__VIEWSTATE':VIEWSTATE,
    '__SCROLLPOSITIONX':'0',
    '__SCROLLPOSITIONY':'541',
    '__EVENTVALIDATION':EVENTVALIDATION,
    'ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$ddlPages':1
}

而不是

payload = {
    '__EVENTTARGET':'',
    '__EVENTARGUMENT':'',
    '__LASTFOCUS':'',
    '__VIEWSTATE':VIEWSTATE,
    '__SCROLLPOSITIONX':'0',
    '__SCROLLPOSITIONY':'541',
    '__EVENTVALIDATION':EVENTVALIDATION,
    'ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$ddlPages':1,
    'ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$btnNext.x':'260',
    'ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$btnNext.y':'11'
}

然后更新ctl00$cphRegistersMasterPage$gvwSearchResults$ctl18$ddlPages值将得到正确的页面数据

相关问题更多 >

编程相关推荐

热门问题

热门文章