Python网络爬虫，无法“点击”下一页

0 投票

1 回答

1495 浏览

提问于 2025-04-17 12:13

我正在从一个页面上获取数据，并按照以下方式填写表单字段：

url = 'http://www.theurl.co.uk/Enquiry.asp'

values = {'PageSize' : '20', 'SortField' : '1', 'SortOrder' : 'ASC'}

data = urllib.urlencode(values)          
req = urllib2.Request(url, data)
source = urllib2.urlopen(req)

soup = BeautifulSoup(source)

然后我从这些数据中提取我需要的信息。我的问题是，我需要继续获取接下来的20条结果，而翻页按钮在源代码中是通过以下代码控制的：

<input type="submit" name="Action" value=" > " style="font-family: Verdana; font-size: 8pt; color: #000080; font-weight: bold">

我该怎么做才能不使用mechanize（我之前没用过这个工具）呢？这是可能的吗？

非常感谢

数据提取 mechanize 网络爬虫表单自动化翻页处理

1 个回答

查看一下表单元素的 action 属性。如果没有这个属性，那么表单就会使用当前的 URL。我敢打赌，表单数据中肯定有一个页码的值，你需要用到这个值。

回答于 2025-04-17 由 Python大师

分享举报

Python网络爬虫，无法“点击”下一页

1 个回答

撰写回答