使用Python（或R）提取Google Scholar结果

网友

1楼 · 编辑于 2024-06-17 13:14:12

谷歌会阻止你。。。显然你不是一个浏览器。也就是说，它们会检测到同样的请求签名，这种签名对于人类活动来说太频繁了。。。。

你可以：

How to make urllib2 requests through Tor in Python?
在大学计算机上运行代码（可能没有帮助）
使用Google scholar API可能会花掉你的钱，而且不会像你作为一个有人情味的普通用户所看到的那样给你全部的功能。

网友

2楼 · 编辑于 2024-06-17 13:14:12

看起来，与Python和R的摩擦遇到了一个问题，Google Scholar将您的请求视为一个机器人查询，因为请求中缺少用户代理。StackExchange中有一个关于downloading all pdfs linked from a web page的类似问题，这个问题的答案将用户引向Unix中的wget和Python中的BeautifulSoup包。

Curl似乎也是一个更有希望的方向。

网友

3楼 · 编辑于 2024-06-17 13:14:12

我建议您不要使用特定的库来抓取特定的网站，而是使用经过良好测试并具有格式良好的文档（如BeautifulSoup）的通用HTML库。

要使用浏览器信息访问网站，可以将url打开器类与自定义用户代理一起使用：

from urllib import FancyURLopener
class MyOpener(FancyURLopener):
    version = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.152 Safari/537.36'
openurl = MyOpener().open

然后下载所需的url，如下所示：

openurl(url).read()

检索学者结果只需使用http://scholar.google.se/scholar?hl=en&q=${query}url。

要从检索到的HTML文件中提取信息，可以使用以下代码：

from bs4 import SoupStrainer, BeautifulSoup
page = BeautifulSoup(openurl(url).read(), parse_only=SoupStrainer('div', id='gs_ab_md'))

这段代码提取了一个具体的div元素，该元素包含Google Scholar搜索结果页面中显示的结果数。

相关问题更多 >

编程相关推荐

热门问题

热门文章