如何用Python抓取内网网站的URL数据？

3 投票

1 回答

6947 浏览

数据工程师

提问于 2025-04-18 13:42

我需要一个Python高手来帮我（我还是个新手）！我想用urllib模块从一个公司内部网站上抓取一些数据。但是，因为这个网站只对员工开放，外部的人看不了，所以我觉得这就是我收到这个错误代码的原因：

IOError: ('http error', 401, 'Unauthorized', )

我该怎么解决这个问题呢？我连用htmlfile.read()都无法读取这个网站的内容。

这是获取公共网站的示例代码：

import urllib
import re

htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL")

htmltext = htmlfile.read()

regex = '<span id="yfs_l84_aapl">(.+?)</span>' 

pattern = re.compile(regex)

price = re.findall(pattern,htmltext)

print price

网络安全身份验证数据访问 http错误 urllib模块数据爬取内网抓取

1 个回答

试试用 requests 库配合 requests_ntlm 插件：

import requests
from requests_ntlm import HttpNtlmAuth

r = requests.get("http://ntlm_protected_site.com",auth=HttpNtlmAuth('domain\\username','password'))

    print r.text

如果你在使用这个库时遇到具体问题，找不到相关的文档，欢迎留言提问。

回答于 2025-04-18 由 Python大师

分享举报

如何用Python抓取内网网站的URL数据？

1 个回答

撰写回答