网页爬虫 - 忽略 Robots.txt 文件？

14 投票

2 回答

13588 浏览

提问于 2025-04-17 07:44

有些服务器会放一个叫做robots.txt的文件，目的是为了阻止网络爬虫访问他们的网站。请问有没有办法让网络爬虫忽略这个robots.txt文件呢？我在用Python的Mechanize库。

网络爬虫数据抓取网页爬虫 robots.txt

2 个回答

这个链接看起来正是你需要的内容：

from mechanize import Browser
br = Browser()

# Ignore robots.txt
br.set_handle_robots( False )

不过你应该知道自己在做什么……

回答于 2025-04-17 由 Python大师

分享举报

mechanize的文档里有一段示例代码：

br = mechanize.Browser()
....
# Ignore robots.txt.  Do not do this without thought and consideration.
br.set_handle_robots(False)

这段代码正好实现了你想要的功能。

回答于 2025-04-17 由 Python大师

分享举报