如何在没有浏览器自动化框架的情况下进行网页抓取时翻页

-1 投票

1 回答

43 浏览

数据工程师

提问于 2025-04-13 01:23

这是一个网站的链接：https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL

我想用Python来抓取这个网站的数据，但不想使用浏览器自动化工具。

在首页上，有一个输入框，必须填写这个输入框才能进入下一页。我想抓取第二页的数据。

我该怎么做呢？

有没有办法在不使用任何自动化框架的情况下实现这个？

from bs4 import BeautifulSoup
import requests

url = "https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

page = requests.get(url, headers=headers)
soup = BeautifulSoup(page.text, 'html.parser')  # Changed 'html' to 'html.parser'

我应该怎么做？或者我们能在不使用自动化框架的情况下跳转到其他页面吗？

http请求数据提取网页抓取网络爬虫自动化工具输入框处理翻页网站解析

1 个回答

你需要先获取第一个信息。

然后再发起另一个请求，这个请求要包含你需要查看的表单详情，看看这些表单数据是怎么提交的，并以同样的方式发送。

在响应中使用第二个页面的链接（如果有的话）。

如果在第二步的响应中没有链接，那就看看他们是怎么获取这个链接的。

回答于 2025-04-13 由 Python大师

分享举报

如何在没有浏览器自动化框架的情况下进行网页抓取时翻页

1 个回答

撰写回答