如何从具体的URL（python）获取正确的HTML代码

import urllib2 def getPage(): url="http://whois.domaintools.com/notregistereddomain.com" req = urllib2.Request(url) try: response = urllib2.urlopen(req) return response.read() except urllib2.HTTPError, error: print "error: ", error.read() a = error.read() f = open("URL.txt", "a") f.write(a) f.close() if __name__ == "__main__": namesPage = getPage() print namesPage

1条回答

网友

1楼 · 发布于 2024-06-07 14:09:00

如果您使用print error而不是print error.read()，您将看到您从服务器得到了一个HTTP 403“禁止”的答案。在

显然，这个服务器不喜欢没有用户代理头的请求（或者它不喜欢Python的头，因为它不想从脚本中查询）。以下是解决方法：

user_agent = "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)" # Or any valid user agent from a real browser
headers = {"User-Agent": user_agent}
req = urllib2.Request(url, headers=headers)
res = urllib2.urlopen(req)
print res.read()

编程相关推荐

java JavaFX:无法在GridPane内水平居中放置行单元格
java GAE flex Jersey Web服务返回404
java使用SLF4J，是否可以对错误/警告采取行动？
如何使用Java解析每个不同键和值的JSON对象？
java如何在azure服务总线中始终侦听队列并截获每条消息
java需要退出循环并修复打印顺序错误（基本计算器）
java在Kafka的哪个分区中有多少数据？
在Java中访问无顶级类的非顶级类的编译器构造
java如何从maven项目生成jar
java如何使用amazon资源名称（ARN）作为标识符来查找amazon资源？

相关问题更多 >

编程相关推荐

热门问题

热门文章