如何使mechanize请求看起来像来自真实浏览器

10 投票
3 回答
17231 浏览
提问于 2025-04-16 09:33

好的,这里有一些我在登录一个账户时,从Live HTTP Header获取的头部信息(只是个例子):

http://example.com/login.html

POST /login.html HTTP/1.1
Host: example.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
Referer: http://example.com
Cookie: blahblahblah; blah = blahblah
Content-Type: application/x-www-form-urlencoded
Content-Length: 39
username=shane&password=123456&do=login

HTTP/1.1 200 OK
Date: Sat, 18 Dec 2010 15:41:02 GMT
Server: Apache/2.2.3 (CentOS)
X-Powered-By: PHP/5.2.14
Set-Cookie: blah = blahblah_blah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Set-Cookie: blah = blahblah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Set-Cookie: blah = blahblah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Cache-Control: private, no-cache="set-cookie"
Expires: 0
Pragma: no-cache
Content-Encoding: gzip
Vary: Accept-Encoding
Content-Length: 4135
Keep-Alive: timeout=10, max=100
Connection: Keep-Alive
Content-Type: text/html; charset=UTF-8

通常我会这样写代码:

import mechanize
import urllib2

MechBrowser = mechanize.Browser()
LoginUrl = "http://example.com/login.html"
LoginData = "username=shane&password=123456&do=login"
LoginHeader = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)", "Referer": "http://example.com"}

LoginRequest = urllib2.Request(LoginUrl, LoginData, LoginHeader)
LoginResponse = MechBrowser.open(LoginRequest)

上面的代码运行得很好。我的问题是,我是否也需要在LoginHeader中添加以下这些行(以及之前头部信息中的更多内容),才能让它看起来更像是用火狐浏览器在上网,而不是用机械化的方式?

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7

哪些部分/多少头部信息需要被伪装,才能让它看起来“真实”?

3 个回答

0

如果你很担心有机器人、脚本或者非真实的浏览器在访问你的网站,你可以关注一些细节,比如HTTP请求的顺序。你可以让某些资源通过JavaScript来加载。如果这个资源没有被请求,或者在JavaScript之前就被请求了,那你就可以判断这是一个“假”浏览器。

你还可以查看每个连接的请求数量(保持连接),或者简单地确认首页的所有CSS文件(因为它们通常在HTML的最上面)都被加载了。

每个人的情况可能不同,但要模拟出一个“假”浏览器看起来像一个“真实”浏览器(人类在使用的)可能会变得相当麻烦。

6

下面是如何为mechanize.Browser设置所有请求的用户代理

br = mechanize.Browser()
br.addheaders = [('User-agent', 'your user agent string here')]

Mechanize还可以填写表单

br.open('http://yoursite.com/login')
br.select_form(nr=1) # select second form in page (0 indexed)
br['username'] = 'yourUserName' # inserts into form field with name 'username'
br['password'] = 'yourPassword'
response = br.submit()
if 'Welcome yourUserName' in response.get_data():
    # login was successful
else:
    # something went wrong
    print response.get_data()

想了解更多信息,可以查看mechanize的示例

7

这要看你想要“欺骗”什么了。你可以试试一些在线服务,它们可以简单地检测用户代理,看看你是否成功:

http://browserspy.dk/browser.php

http://www.browserscope.org(找找“我们认为你正在使用...”)

http://www.browserscope.org/ua

http://panopticlick.eff.org/ -> 这个网站可以帮助你选择一些“太常见而无法追踪”的选项

http://networking.ringofsaturn.com/Tools/browser.php

我觉得如果有决心的程序员是可以识破你的把戏的,但很多日志解析工具和软件在你发送真实浏览器信息的时候就不会发现了。

你需要考虑的一点是,如果没有JavaScript,可能会引起注意,所以最好在关闭JavaScript的情况下也捕捉一下发送的头信息。

撰写回答