好的,下面是我在登录帐户时从Live HTTP头获得的头(只是一个示例)信息:
http://example.com/login.html
POST /login.html HTTP/1.1
Host: example.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 115
Connection: keep-alive
Referer: http://example.com
Cookie: blahblahblah; blah = blahblah
Content-Type: application/x-www-form-urlencoded
Content-Length: 39
username=shane&password=123456&do=login
HTTP/1.1 200 OK
Date: Sat, 18 Dec 2010 15:41:02 GMT
Server: Apache/2.2.3 (CentOS)
X-Powered-By: PHP/5.2.14
Set-Cookie: blah = blahblah_blah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Set-Cookie: blah = blahblah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Set-Cookie: blah = blahblah; expires=Sun, 18-Dec-2011 15:41:02 GMT; path=/; domain=.example.com; HttpOnly
Cache-Control: private, no-cache="set-cookie"
Expires: 0
Pragma: no-cache
Content-Encoding: gzip
Vary: Accept-Encoding
Content-Length: 4135
Keep-Alive: timeout=10, max=100
Connection: Keep-Alive
Content-Type: text/html; charset=UTF-8
通常我会这样编码:
import mechanize
import urllib2
MechBrowser = mechanize.Browser()
LoginUrl = "http://example.com/login.html"
LoginData = "username=shane&password=123456&do=login"
LoginHeader = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 GTB7.1 (.NET CLR 3.5.30729)", "Referer": "http://example.com"}
LoginRequest = urllib2.Request(LoginUrl, LoginData, LoginHeader)
LoginResponse = MechBrowser.open(LoginRequest)
上面的代码运行良好。我的问题是,我是否还需要在LoginHeader
中添加以下行(以及前面的标题信息中的更多行)以使它看起来像firefox的冲浪,而不是机械化?
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
需要欺骗哪些部分/多少标题信息才能使其看起来“真实”?
下面是如何为mechanize.Browser发出的所有请求设置用户代理的
机械化也可以填写表格
有关详细信息,请参见mechanize examples
如果你偏执于不使用bots/scripts/non-real浏览器,你会寻找类似HTTP请求的顺序,让一个资源使用JavaScript添加。如果该资源没有被请求,或者在JavaScript之前被请求,那么您就知道它是一个“假”浏览器。 您还可以查看每个连接的请求数(保持活动状态),或者简单地验证是否加载了第一页的所有CSS文件(假设它们位于HTML的顶部)。
但它可以变得相当麻烦的模拟,足以使一些“假”浏览器通过一个“真正的”一个(由人类使用)。
这取决于你想“愚弄”什么。您可以尝试使用一些在线服务来执行简单的用户代理嗅探,以衡量您的成功:
http://browserspy.dk/browser.php
http://www.browserscope.org(查找“我们认为您正在使用…”)
http://www.browserscope.org/ua
http://panopticlick.eff.org/->;将帮助您选择一些“太常见而无法跟踪”的选项
http://networking.ringofsaturn.com/Tools/browser.php
我相信一个有决心的程序员可以检测到你的游戏,但是一旦你回显你真正的浏览器发送的内容,很多日志分析器和工具就不会。
您应该考虑的一件事是,缺少JS可能会引发危险信号,因此在禁用JS的情况下捕获发送的头。
相关问题 更多 >
编程相关推荐