如何用Python抓取内网网站的URL数据?
我需要一个Python高手来帮我(我还是个新手)!我想用urllib模块从一个公司内部网站上抓取一些数据。但是,因为这个网站只对员工开放,外部的人看不了,所以我觉得这就是我收到这个错误代码的原因:
IOError: ('http error', 401, 'Unauthorized', )
我该怎么解决这个问题呢?我连用htmlfile.read()都无法读取这个网站的内容。
这是获取公共网站的示例代码:
import urllib
import re
htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")
htmltext = htmlfile.read()
regex = '<span id="yfs_l84_aapl">(.+?)</span>'
pattern = re.compile(regex)
price = re.findall(pattern,htmltext)
print price
1 个回答
5
试试用 requests 库配合 requests_ntlm 插件:
import requests
from requests_ntlm import HttpNtlmAuth
r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))
print r.text
如果你在使用这个库时遇到具体问题,找不到相关的文档,欢迎留言提问。