如何爬取网站以查找名称并在符合robots.txt时返回URL?

1 投票
1 回答
529 浏览
提问于 2025-04-16 23:49

我正在整理一个名字和对应网站的简介列表。

我有一些名字和它们对应的网站:

name      website
-----------------
John Doe  abc.com
Steve J   apple.com

比如,我想在 http://abc.com 上搜索 John Doe。

我想找到这个网站上出现 John Doe 的网址:

例如:

http://abc.com/board/programmers.php
http://abc.com/team/list.php
http://abc.com/index/welcome.php

当然,我会遵守每个网站的 robots.txt 文件。我的目的不是数据挖掘,我已经知道某个人 'X' 和一个网站 'Y' 有关联,我只是想列出他的简介。我相信网站管理员不会介意的!

我听说过 Scrapy,但我不知道在网站上找到名字的确切网址。我只有网站的根地址,想让爬虫去访问每个链接的页面。

在写这个的时候,我开始想,为什么不直接把搜索词和网站输入到谷歌里,让它自动获取结果呢?不过我想谷歌的服务条款是不允许这样做的。

1 个回答

0

使用搜索引擎,或者通过抓取数据,或者使用他们的API(前提是你能遵守他们的使用条款),绝对是解决这个问题的好方法。

比如,可以看看如何使用DuckDuckGo来实现

撰写回答