如何在没有浏览器自动化框架的情况下进行网页抓取时翻页

-1 投票
1 回答
43 浏览
提问于 2025-04-13 01:23

这是一个网站的链接:https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL

我想用Python来抓取这个网站的数据,但不想使用浏览器自动化工具。

在首页上,有一个输入框,必须填写这个输入框才能进入下一页。我想抓取第二页的数据。

我该怎么做呢?

有没有办法在不使用任何自动化框架的情况下实现这个?

from bs4 import BeautifulSoup
import requests

url = "https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

page = requests.get(url, headers=headers)
soup = BeautifulSoup(page.text, 'html.parser')  # Changed 'html' to 'html.parser'

我应该怎么做?或者我们能在不使用自动化框架的情况下跳转到其他页面吗?

1 个回答

0

你需要先获取第一个信息。

然后再发起另一个请求,这个请求要包含你需要查看的表单详情,看看这些表单数据是怎么提交的,并以同样的方式发送。

在响应中使用第二个页面的链接(如果有的话)。

如果在第二步的响应中没有链接,那就看看他们是怎么获取这个链接的。

撰写回答