Scrape作者hindex,i10index和Google Sch的总引文量

2024-06-09 21:28:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在做一个从Google Scholar获取数据的项目。我想刮一个作者的h指数,总引文量和I-10指数(全部)。例如,我希望从Louisa Gilbert中刮取:

h-index = 36
i10-index = 74
citations = 4383

我写了这个:

^{pr2}$

但我不确定如何继续。(我知道有些库是可用的,但是没有一个库允许您刮取h-index和i10-index。)


Tags: 项目indexgoogle作者指数scholarcitationspr2
1条回答
网友
1楼 · 发布于 2024-06-09 21:28:51

你就快到了。您需要找到包含要提取的数据的HTML元素。在这种特殊情况下,索引包含在标记<td class="gsc_rsb_std">中。您需要从Soup元素中提取这些标记,然后使用string方法从标记中恢复文本:

indexes = soup.find_all("td", "gsc_rsb_std")
h_index = indexes[2].string
i10_index = indexes[4].string
citations = indexes[0].string

相关问题 更多 >