Python网络爬虫,无法“点击”下一页

0 投票
1 回答
1495 浏览
提问于 2025-04-17 12:13

我正在从一个页面上获取数据,并按照以下方式填写表单字段:

url = 'http://www.theurl.co.uk/Enquiry.asp'

values = {'PageSize' : '20', 'SortField' : '1', 'SortOrder' : 'ASC'}

data = urllib.urlencode(values)          
req = urllib2.Request(url, data)
source = urllib2.urlopen(req)

soup = BeautifulSoup(source)

然后我从这些数据中提取我需要的信息。我的问题是,我需要继续获取接下来的20条结果,而翻页按钮在源代码中是通过以下代码控制的:

<input type="submit" name="Action" value=" > " style="font-family: Verdana; font-size: 8pt; color: #000080; font-weight: bold">

我该怎么做才能不使用mechanize(我之前没用过这个工具)呢?这是可能的吗?

非常感谢

1 个回答

0

查看一下表单元素的 action 属性。如果没有这个属性,那么表单就会使用当前的 URL。我敢打赌,表单数据中肯定有一个页码的值,你需要用到这个值。

撰写回答