使用PHP (libcurl)、Python (liburl)或AJAX读取JSP servlet页面

Question

我正在尝试用curl访问一个网页：http://rutgers.bncollege.com/webapp/wcs/stores/servlet/TextBookProcessDropdownsCmd?campusId=35577418，目的是提取一些数据。但我遇到的问题是，总是收到404错误或者302状态的响应。我怀疑这可能和Barnes and Noble的Tomcat服务器在远程请求时没有正确重定向到servlet有关。不过这只是我的猜测。我已经尝试了多种方法，包括在PHP5中使用libcurl、在Python中使用liburl、使用AJAX（有框架和无框架）以及在终端中使用curl命令。

这是我在输出响应文本时得到的结果：

发生了一个错误：

错误代码：404

消息目标：/BNCB_GenericError.jsp

Servlet名称：JSP 1.2处理器

堆栈跟踪：[Ljava.lang.StackTraceElement;@14b6c4d

根本原因：无

这是我发送和接收的请求头：

响应头

过期时间 Thu, 01 Dec 1994 16:00:00 GMT

缓存控制不缓存="set-cookie,set-cookie2"

位置 http://uncc.bncollege.com/webapp/wcs/stores/servlet/TBDropDownView?campusId=1748054&dojo.transport=xmlhttp&dojo.preventCache=1300287790307&ddkey=TextBookProcessDropdownsCmd

内容长度 0

性能头持续时间=D=56606,

时间=t=1300287776952692

内容类型 text/html;

字符集=ISO-8859-1

内容语言 en-US 日期 Wed, 16

Mar 2011 15:02:57 GMT

连接保持连接

变化接受编码

设置Cookie WC_SESSION_ESTABLISHED=true;Domain=.bncollege.com;Path=/

WC_ACTIVESTOREDATA=%2d1%2c0;Domain=.bncollege.com;Path=/WC_USERSESSION_46349649=46349649%2cnull%2cnull%2c%2d2000%2cnull%2cnull%2cnull%2cnull%2cnull%2cnull%2cnull%2cnull%2c%5b0%7cnull%7cnull%7cnull%7c%2d2000%5d%2c8XwO3l7WhszbuSO41vmZUDtbpoQ%3d;Domain=.bncollege.com;Path=/

JSESSIONID=0000AuZi2Uo6F6Ft5xihFdUsBQn:app06z02;Domain=.bncollege.com;Path=/

TS884e96=b7fb55c6fcd8aff3987bcdb831a8255a16b4cbcb208252614d80d120;

请求头

主机 uncc.bncollege.com

用户代理 Mozilla/5.0 (Macintosh; U;

Intel Mac OS X 10.6; en-US;

rv:1.9.2.15pre) Gecko/20110227

Firefox/3.6.15pre (Mac Community

Build, ElFurbe)

接受 text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8

接受语言 en-us,en;q=0.5

接受编码 gzip,deflate

接受字符集 ISO-8859-1,utf-8;q=0.7,*;q=0.7

保持连接 115 连接保持连接

引用来源 http://localhost/bn.php

来源 http://localhost

这是相关的代码：

function bufferURL($url,$bindArgs) {
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, 'http://rutgers.bncollege.com/webapp/wcs/stores/servlet/TBWizardView?catalogId=10001&storeId=58552&langId=-1');
    curl_setopt($ch, CURLOPT_POST, 1);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_COOKIEJAR, "my_cookies.txt");
    curl_setopt($ch, CURLOPT_COOKIEFILE, "my_cookies.txt");
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.3) Gecko/20070309 Firefox/2.0.0.3");
    curl_exec($ch);

    $url .= '?';
    foreach ($bindArgs as $a => $b) $url .= $a . '=' . $b . '&';
    $url = substr($url,0,strlen($url)-1);

    curl_setopt($ch, CURLOPT_HTTPGET, true);
    curl_setopt($ch, CURLOPT_URL, $url);
    echo curl_exec($ch);
}

看起来BN使用Dojo来执行他们的AJAX请求到servlet；然而，即使使用相同的请求格式，我也无法复制这个过程。

ajax web scraping curl http status codes libcurl servlet dojo JSP

使用PHP (libcurl)、Python (liburl)或AJAX读取JSP servlet页面

1 个回答

撰写回答