Scrape作者hindex，i10index和Google Sch的总引文量

2024-06-09 21:28:51 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在做一个从Google Scholar获取数据的项目。我想刮一个作者的h指数，总引文量和I-10指数（全部）。例如，我希望从Louisa Gilbert中刮取：

h-index = 36
i10-index = 74
citations = 4383

我写了这个：

^{pr2}$

但我不确定如何继续。（我知道有些库是可用的，但是没有一个库允许您刮取h-index和i10-index。）

Tags：项目 index google 作者指数 scholar citations pr2

1条回答

网友

1楼 · 发布于 2024-06-09 21:28:51

你就快到了。您需要找到包含要提取的数据的HTML元素。在这种特殊情况下，索引包含在标记<td class="gsc_rsb_std">中。您需要从Soup元素中提取这些标记，然后使用string方法从标记中恢复文本：

indexes = soup.find_all("td", "gsc_rsb_std")
h_index = indexes[2].string
i10_index = indexes[4].string
citations = indexes[0].string