如何在Python中打开URL并提取信息

2024-06-17 15:42:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经写了一个网页摘要,以提取谷歌学者的信息。但是,任何方便的工具(如urllib2pr请求)都失败了。它给了我503个错误代码。你知道吗

我正在寻找另一种提取信息的方法。有没有可能,我可以让程序打开网址在浏览,而不是提取信息。你知道吗

例如,它是一个链接:

'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en'

如何得到H指数,等等?你知道吗


Tags: 工具方法程序com信息http网页链接
1条回答
网友
1楼 · 发布于 2024-06-17 15:42:10

看起来googlescholar暂时禁止了频繁查询或自动查询的客户端(使用503个错误代码)。你可能已经被暂时禁止后,查询太多,或因为它认为你是从一个脚本运行。您可以使用cookies在一个会话中执行多个查询。或者等到禁令解除,或者在两次尝试之间等待,或者对脚本进行编码,使其看起来像来自web浏览器(更改它在查询中发送的“userAgent”字符串)。你知道吗

在“googlescholar 503”上做一个google搜索,获取关于这个主题的大量信息(我就这么做了)。你知道吗

另请参见此主题:503 error when trying to access Google Patents using python

相关问题 更多 >