2024-06-09 21:28:51 发布
网友
我正在做一个从Google Scholar获取数据的项目。我想刮一个作者的h指数,总引文量和I-10指数(全部)。例如,我希望从Louisa Gilbert中刮取:
h-index = 36 i10-index = 74 citations = 4383
我写了这个:
但我不确定如何继续。(我知道有些库是可用的,但是没有一个库允许您刮取h-index和i10-index。)
你就快到了。您需要找到包含要提取的数据的HTML元素。在这种特殊情况下,索引包含在标记<td class="gsc_rsb_std">中。您需要从Soup元素中提取这些标记,然后使用string方法从标记中恢复文本:
<td class="gsc_rsb_std">
string
indexes = soup.find_all("td", "gsc_rsb_std") h_index = indexes[2].string i10_index = indexes[4].string citations = indexes[0].string
你就快到了。您需要找到包含要提取的数据的HTML元素。在这种特殊情况下,索引包含在标记
<td class="gsc_rsb_std">
中。您需要从Soup元素中提取这些标记,然后使用string
方法从标记中恢复文本:相关问题 更多 >
编程相关推荐