我已经用Python 3编写了一个微型代理模块,简单地放在浏览器和web之间。我的目标只是代理来回的流量。程序的一个行为是将我得到的网站响应保存到本地目录中。
一切按我预期的方式工作,除了一个简单的事实,在循环中使用^ {CD1>}似乎永远不会产生在examples provided in the docs中隐含的空白^ {< CD2>}对象。实际上,每个在线示例都会讨论当服务器关闭时,通过套接字的空白字符串。
我的假设是通过keep-alive头发生了一些事情,远程服务器永远不会关闭套接字,除非达到它自己的超时阈值。是这样吗?如果是这样的话,我到底是如何检测有效载荷何时完成发送的呢?由于TCP的工作方式,观察接收到的数据小于我声明的块大小根本不起作用。
为了演示,下面的代码在Google的web服务器上打开一个图像文件的套接字。我从浏览器自己的请求中复制了实际的请求字符串。运行代码(记住,Python 3!)显示二进制图像数据接收到完成,但代码永远无法命中break
语句。只有当服务器关闭套接字时(在大约3分钟的空闲时间后),此代码才真正到达文件末尾的print
命令。
一个人到底是怎么绕过这个的?我的目标是不修改浏览器请求的行为-我不想把keep-alive
头设置为false
或类似的花哨的东西。答案是使用一些难看的超时(通过socket.settimeout()
)?看起来很可笑,但我不知道还能做什么。
提前谢谢。
import socket
remote_host = 'www.google.com'
remote_port = 80
remote_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
remote_socket.connect((remote_host, remote_port))
remote_socket.sendall(b'GET http://www.google.com/images/logos/ps_logo2a_cp.png HTTP/1.1\r\nHost: www.google.com\r\nCache-Control: max-age=0\r\nPragma: no-cache\r\nUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.794.0 Safari/535.1\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\nAccept-Encoding: gzip,deflate,sdch\r\nAccept-Language: en-US,en;q=0.8\r\nAccept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3\r\n\r\n')
content = b''
while True:
msg = remote_socket.recv(1024)
if not msg:
break
print(msg)
content += msg
print("DONE: %d" % len(content))
让服务器关闭连接的一个非常简单的方法是将此头添加到HTTP请求中:
默认情况下,允许HTTP/1.1服务器保持连接打开,以便您可以创建第二个请求。您仍然应该创建一个超时,这样当服务器忽略头时,您就不会缺少套接字。
如果您有一个keep-alive连接,那么在响应的头中会有一些消息长度的指示。见HTTP Message。缓冲区
recv
直到拥有完整的头(以空行结尾),确定消息正文长度,并准确地读取那么多信息。这里有一个简单的类来缓冲TCP读取,直到读取了消息终止符或特定数量的字节。我把它添加到你的例子中:
输出
当tcp连接关闭时,它将发送最后一条空白消息,指示套接字已关闭。当您收到消息时,您很可能也应该关闭您一端的插座。
相关问题 更多 >
编程相关推荐