Python WWW宏
我需要一个类似于iMacros的Python工具。能有这样的东西就太好了:
browse_to('www.google.com')
type_in_input('search', 'query')
click_button('search')
list = get_all('<p>')
你知道有没有类似的东西吗?
提前谢谢你,
Etam。
3 个回答
0
还有一个可以考虑的事情就是自己写脚本。其实一旦你掌握了这个技巧,写起来并不太难,而且如果不使用很多大型库,可能会更快(不过我不太确定)。我使用一个叫“Charles”的网页调试工具来浏览我想抓取的网站。它会记录所有的进出HTTP通信,我利用这些记录来分析查询字符串。用Python来处理这些字符串,可以让抓取变得非常快速和灵活。
6
可以使用mechanize这个工具。除了不能执行页面中的JavaScript,它的功能还是挺不错的。
7
几乎完全满足了问题中的需求 - twill。
twill 是一种简单的语言,让用户可以通过命令行界面浏览网页。使用 twill,你可以在包含表单、Cookies 和大多数标准网页功能的网站上进行导航。
twill 支持自动化网页测试,并且有一个简单的 Python 接口。
(为了方便,pyparsing
、mechanize
和 BeautifulSoup
都包含在 twill 中。)
一个 Python API
的示例:
from twill.commands import go, showforms, formclear, fv, submit
go('http://issola.caltech.edu/~t/qwsgi/qwsgi-demo.cgi/')
go('./widgets')
showforms()
formclear('1')
fv("1", "name", "test")
fv("1", "password", "testpass")
fv("1", "confirm", "yes")
showforms()
submit('0')