我创建了一个脚本来获取来自Google结果页面的URL链接;这个脚本运行得很好,但是在Google阻止你之后,它最多按你的IP地址运行3次。
我想这是因为我的头文件包含:python-requests/2.3.0 CPython/2.7.2 Windows/7
。因此,我尝试通过使用头来更改它,并通过使用site来验证结果。你知道吗
这是我的标题:
headers = {
"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0",
"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language" : "en-US,en;q=0.5",
"Connection" : "keep-alive",}
但谷歌还是把我当成了一个机器人,它知道当我用浏览器搜索时,一切正常。你知道吗
如何解决这个问题?你知道吗
你的剧本没问题。使用脚本自动获取搜索结果违反了每个搜索引擎的服务条款。搜索引擎嗅出并阻止这种访问。你必须使用谷歌的一个官方API来获取你的数据。比如Google Custom Search或者类似的东西。你知道吗
相关问题 更多 >
编程相关推荐