Python Scrapy: 爬取ASP网站

0 投票
1 回答
727 浏览
提问于 2025-04-18 03:50

我之前抓取过很多其他网站的表单输入,但这次遇到了一些困难,搞不清楚该怎么做。

http://search.appleone.com/ResumeSearch/results.asp

当我在这个网站上搜索某个内容时,它返回的结果是一个随机的results.asp文件,并不是我搜索的内容相关的结果。我想做的是输入一个搜索词,然后抓取结果页面。但我在输入搜索词这一步上遇到了麻烦。通常,我会像这样做:http://bdomainnameh.com/search/输入搜索

如果有人能帮帮我,我会非常感激。

1 个回答

1

这个表单里有一个隐藏的输入框(在第285行)。

<form name="frmAE" action="process.asp?page=SearchDetailed" method="POST">
<input type=hidden name="hdnAction" value="">

当你点击“下一步>>”按钮时,它会调用 sendForm(2, 0)(在第428行),这个函数会把一个值2赋给那个隐藏的输入框(在第245行),然后把这个表单作为一个POST请求提交出去(不是GET请求,所以结果页面“与搜索词无关”,也就是说在网址里不会显示搜索词)。

你需要做的有两个: (a) 把这个隐藏的值加到你的请求里, (b) 提交一个POST请求,而不是GET请求。

撰写回答