Python中使用"User-Agent"的Requests.get不模拟浏览器请求
我需要通过Linux终端用Python从网页上收集信息,这个方法很好用,但有些网页(不是全部)在我用requests.get请求时会返回无效的URL,因为它们有检测程序,无法识别我的请求(我不是浏览器或手机应用,而是从Linux终端发出的请求)。
我尝试使用“User-Agent”头信息,但也没有成功。我试了好几种不同的方法来模拟自己是一个Mozilla浏览器:
user_agent = {'User-Agent': 'Mozilla/5.0'}
或者
user_agent = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; hu-HU; rv:1.7.8) Gecko/20050511 Firefox/1.0.4'}
或者很多其他组合。
在某些服务器上,当我尝试使用这行代码:
page = requests.get(url, headers=user_agent)
时,我会收到一个错误请求,因为这些服务器试图给我发送桌面或手机浏览器的网页,但它们无法识别我的请求。
我这样发送User-Agent是不是有什么问题?我在Python Notebook中运行我的代码时一切正常,因为我当然是从浏览器发出的请求。
2 个回答
7
我使用了 fake UserAgent 这个库。
使用方法:
from fake_useragent import UserAgent
import requests
ua = UserAgent()
print(ua.chrome)
header = {'User-Agent':str(ua.chrome)}
print(header)
url = "https://www.hybrid-analysis.com/recent-submissions?filter=file&sort=^timestamp"
htmlContent = requests.get(url, headers=header)
print(htmlContent)
输出结果:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1309.0 Safari/537.17
{'User-Agent': 'Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36'}
<Response [200]>
12
你正在使用一个非常旧的用户代理,这确实会导致一些网站把你屏蔽掉。
>>> import requests
>>> header = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0',}
>>> url = 'http://www.w3.org/'
>>> r = requests.get(url, headers=header)
>>> r.headers
CaseInsensitiveDict({'content-length': '40737', 'content-location': 'Home.html', 'accept-ranges': 'bytes', 'expires': 'Tue, 24 Jun 2014 04:44:36 GMT', 'vary': 'negotiate,accept', 'server': 'Apache/2', 'tcn': 'choice', 'last-modified': 'Mon, 23 Jun 2014 11:15:15 GMT', 'etag': '"9f21-4fc7ef51956c0;89-3f26bd17a2f00"', 'cache-control': 'max-age=600', 'date': 'Tue, 24 Jun 2014 04:34:36 GMT', 'p3p': 'policyref="http://www.w3.org/2001/05/P3P/p3p.xml"', 'content-type': 'text/html; charset=utf-8'})
>>> r.request.headers
CaseInsensitiveDict({'Accept-Encoding': 'gzip, deflate, compress', 'Accept': '*/*', 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:32.0) Gecko/20100101 Firefox/32.0'})
>>>