自动发送和接收来自HTML页面的数据

2024-05-23 17:50:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我不知道该用哪个模块。 我有超过100个文件,我需要提交到下面的网页和检索结果。在

http://bip.weizmann.ac.il/oca-bin/lpccsu

如果我可以自动将文件发送到

'<'input type="file" name="filename"  size='30''>'

标记,然后接收返回的html,以便可以用正则表达式处理它。在

谢谢

编辑以查看示例输出,将radiobutton设置为CSU,并在“PDB entry”文本框中输入1eo8


Tags: 模块文件namehttp网页inputbintype
2条回答

@Anake这里有3个Pythonic包,它们提供了检索和解析的解决方案:

从他们的网站:

Beautiful Soup会解析您提供的任何内容,并为您执行树遍历操作。你可以告诉它“Find all links”,或“Find all the links of class externalLink”,或“Find all links which URL match”foo.com网站或者“找到有粗体文本的表标题,然后给我该文本。”1

在Andy Lester的Perl模块2之后,使用Python进行有状态编程式web浏览

Scrapy是一个快速的高级屏幕抓取和web爬行框架,用于抓取网站并从页面中提取结构化数据。它可以用于广泛的目的,从数据挖掘到监控和自动化测试。3

有几种方法可以做到这一点:

1)Perl和LWP

use LWP::UserAgent; 
my $ua = new LWP::UserAgent; 

my $response 
= $ua->post('http://bip.weizmann.ac.il/oca-bin/lpccsu?9955', 
{ param1 => 'value1',
param2 => 'value2', 
}); 

my $content = $response->content;
// your regular expression code

2)Autohotkey有正则表达式和一个由用户编写的处理POST请求的库,请参见http://www.autohotkey.com/forum/topic33506.html

3)编写一个使用wget post data和post file的批处理文件,将其通过管道传输到一系列文件中,然后使用favoritte脚本语言读取输出 参考号:http://www.gnu.org/software/wget/manual/html_node/HTTP-Options.html

希望有帮助

相关问题 更多 >