如何通过谷歌搜索爬取特定域名的链接?

1 投票
1 回答
572 浏览
提问于 2025-04-17 02:40

我有一堆印度歌曲的歌词,想给它们标上发行年份,用于我正在进行的实验。

有一个网站(lyricsindia.net),上面有这些歌词的完整数据库,还标注了年份,但可惜的是,网站上无法直接搜索歌词。相反,当我用歌词的一部分在谷歌上搜索时,lyricsindia.net的歌曲链接总是出现在前十个结果里。

现在,我在想,能不能用像scrapy这样的网络爬虫框架,以搜索字符串作为起点来进行爬虫。每个我看到的Scrapy教程都是从一个起始网址开始的。

1 个回答

0

你的搜索字符串可以是网址的一部分,比如说 google.com?q=my+string。

或者,你可以获取搜索表单,然后把你的字符串填进去,像这样:

return [FormRequest.from_response(response,
            formdata={'search': 'you\'re search string'},
            callback=self.parse)]

我相信 Scrapy 能够实现你想要的功能。

撰写回答