如何爬取网站以查找名称并在符合robots.txt时返回URL？

1 投票

1 回答

529 浏览

提问于 2025-04-16 23:49

我正在整理一个名字和对应网站的简介列表。

我有一些名字和它们对应的网站：

name      website
-----------------
John Doe  abc.com
Steve J   apple.com

比如，我想在 http://abc.com 上搜索 John Doe。

我想找到这个网站上出现 John Doe 的网址：

例如：

http://abc.com/board/programmers.php
http://abc.com/team/list.php
http://abc.com/index/welcome.php

当然，我会遵守每个网站的 robots.txt 文件。我的目的不是数据挖掘，我已经知道某个人 'X' 和一个网站 'Y' 有关联，我只是想列出他的简介。我相信网站管理员不会介意的！

我听说过 Scrapy，但我不知道在网站上找到名字的确切网址。我只有网站的根地址，想让爬虫去访问每个链接的页面。

在写这个的时候，我开始想，为什么不直接把搜索词和网站输入到谷歌里，让它自动获取结果呢？不过我想谷歌的服务条款是不允许这样做的。

自动化测试信息检索网页解析数据抓取爬虫技术 scrapy框架 robots.txt 网站搜索

1 个回答

使用搜索引擎，或者通过抓取数据，或者使用他们的API（前提是你能遵守他们的使用条款），绝对是解决这个问题的好方法。

回答于 2025-04-16 由 Python大师

分享举报