Beautiful Soup会解析您提供的任何内容,并为您执行树遍历操作。你可以告诉它“Find all links”,或“Find all the links of class externalLink”,或“Find all links which URL match”foo.com网站或者“找到有粗体文本的表标题,然后给我该文本。”1
use LWP::UserAgent;
my $ua = new LWP::UserAgent;
my $response
= $ua->post('http://bip.weizmann.ac.il/oca-bin/lpccsu?9955',
{ param1 => 'value1',
param2 => 'value2',
});
my $content = $response->content;
// your regular expression code
@Anake这里有3个Pythonic包,它们提供了检索和解析的解决方案:
从他们的网站:
Beautiful Soup会解析您提供的任何内容,并为您执行树遍历操作。你可以告诉它“Find all links”,或“Find all the links of class externalLink”,或“Find all links which URL match”foo.com网站或者“找到有粗体文本的表标题,然后给我该文本。”1
在Andy Lester的Perl模块2之后,使用Python进行有状态编程式web浏览
Scrapy是一个快速的高级屏幕抓取和web爬行框架,用于抓取网站并从页面中提取结构化数据。它可以用于广泛的目的,从数据挖掘到监控和自动化测试。3
有几种方法可以做到这一点:
1)Perl和LWP
2)Autohotkey有正则表达式和一个由用户编写的处理POST请求的库,请参见http://www.autohotkey.com/forum/topic33506.html
3)编写一个使用wget post data和post file的批处理文件,将其通过管道传输到一系列文件中,然后使用favoritte脚本语言读取输出 参考号:http://www.gnu.org/software/wget/manual/html_node/HTTP-Options.html
希望有帮助
相关问题 更多 >
编程相关推荐