我想刮所有的结果刚刚拨号搜索结果页。但是我只得到了前10个结果,因为它使用了延迟加载
import requests
from bs4 import BeautifulSoup
url = 'https://www.justdial.com/Kolkata/Travel-Agents/nct-10496380/page-2'
header = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}
r = requests.get(url,headers=header,verify=False)
但使用这个我只能得到10个结果,但我需要该页面的所有结果。 在延迟加载期间,它会点击下面的URL 'https://www.justdial.com/functions/ajxsearch.php?national_search=0&act=分页新&;城市=加尔各答&;搜索=旅行社%20;式中=&;catid=0&;psearch=&;prid=&;页码=3&;SID=&;mntypgrp=0&;toknbkt=&;记账日期=&;jdsrc=&;中纬度=22.562968864829&;经度中位数=88.389698473675&;ncatid=10496380&;mncatname=旅行社%20名;dcity=加尔各答&;pncode=999999&;htlis=0'
当我使用这个URL时,它返回一个空白列表。 我如何解决这个问题
这将有助于您:
var
li_tags
包含li
标记的列表。这些li
标记包含详细信息。您可以进一步解析这些li_标记以提取信息。例如,如果要刮除页面上显示的每张卡的heading
和link
,可以将以下行添加到代码中:输出:
相关问题 更多 >
编程相关推荐