如何爬取网站以查找名称并在符合robots.txt时返回URL?
我正在整理一个名字和对应网站的简介列表。
我有一些名字和它们对应的网站:
name website
-----------------
John Doe abc.com
Steve J apple.com
比如,我想在 http://abc.com 上搜索 John Doe。
我想找到这个网站上出现 John Doe 的网址:
例如:
http://abc.com/board/programmers.php
http://abc.com/team/list.php
http://abc.com/index/welcome.php
当然,我会遵守每个网站的 robots.txt 文件。我的目的不是数据挖掘,我已经知道某个人 'X' 和一个网站 'Y' 有关联,我只是想列出他的简介。我相信网站管理员不会介意的!
我听说过 Scrapy,但我不知道在网站上找到名字的确切网址。我只有网站的根地址,想让爬虫去访问每个链接的页面。
在写这个的时候,我开始想,为什么不直接把搜索词和网站输入到谷歌里,让它自动获取结果呢?不过我想谷歌的服务条款是不允许这样做的。