如何在没有浏览器自动化框架的情况下进行网页抓取时翻页
我想用Python来抓取这个网站的数据,但不想使用浏览器自动化工具。
在首页上,有一个输入框,必须填写这个输入框才能进入下一页。我想抓取第二页的数据。
我该怎么做呢?
有没有办法在不使用任何自动化框架的情况下实现这个?
from bs4 import BeautifulSoup
import requests
url = "https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
page = requests.get(url, headers=headers)
soup = BeautifulSoup(page.text, 'html.parser') # Changed 'html' to 'html.parser'
我应该怎么做?或者我们能在不使用自动化框架的情况下跳转到其他页面吗?
1 个回答
0
你需要先获取第一个信息。
然后再发起另一个请求,这个请求要包含你需要查看的表单详情,看看这些表单数据是怎么提交的,并以同样的方式发送。
在响应中使用第二个页面的链接(如果有的话)。
如果在第二步的响应中没有链接,那就看看他们是怎么获取这个链接的。