有没有Python库用于抓取搜索引擎结果?

1 投票
4 回答
2186 浏览
提问于 2025-04-16 02:10

我在找一个可以用来从搜索引擎(比如谷歌、雅虎、必应等)抓取结果的Python库。

我只找到一个适用于谷歌的库,链接是:http://github.com/kevinw/xgoogle/tree/253db7ddc8603a9dcb038ae42684cf3499a22a4b

有没有人知道可以同时支持多个搜索引擎的库呢?

4 个回答

0

这里所有的回答都已经过时了,如果你想要使用的话,建议用标准的谷歌API。你可以在24小时内免费发送1000个请求。

你还可以尝试以下方法:

  • 使用requests库
  • 使用selenium工具
  • 使用第三方的谷歌库(据我所知,这些也都过时了)

不过,最终你还是会被封锁,所以最好还是使用谷歌官方支持的API或者其他付费的API。

0

写这些东西其实不难。我一般用的是php。你可以看看curl这个工具,它可以用来获取网页,然后再用dom对象和dom xpath。你可以用xpath来选择你想要的结果部分。

如果你安装了firebug和firexpath,使用xpath就很简单。我现在正在做一个位置检查器。原理差不多,但它是根据关键词返回一个域名的位置。

1

Scrapy 是一个很不错的框架,用来抓取网页上的数据。不过,你需要写一些代码或者进行配置,让它能适应你想要抓取的网站。

撰写回答