使用分页从地理数据集获取搜索结果的url链接

2024-06-17 12:03:39 发布

您现在位置：Python中文网/ 问答频道 /正文

4086

网友

男 | 程序猿一只，喜欢编程写python代码。

我想从这一页的搜索结果中获得每篇文章的所有链接： https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer

但是我在获取下一页的url时遇到了问题。从<div class="pagination">可以看出：

<a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Next page of results" class="active page_link next" href="#" sid="3" page="2" accesskey="k" id="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page">Next &gt;</a>

因此，我使用python urllib检索下一页的url，以便使用BeautifulSoup获取其内容：

param2=urllib.urlencode({'sid':3,'page':2,'accesskey':'k','id':'EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page'})

f2=urllib.urlopen('https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer',param2)

soup2 = BeautifulSoup(f2.read(), 'html.parser')

现在的问题是，即使我把页码从1改为10，我也总能得到第一页的内容。有人能告诉我我做错了什么吗

Tags： https www page ncbi nlm entrez urllib gov

1条回答

网友

1楼 · 发布于 2024-06-17 12:03:39

为了获得下一页，你应该发送大量的数据（通过发帖请求）。在任何浏览器中使用开发人员工具检查需要发送的数据

（并非显示所有数据）

使用分页从地理数据集获取搜索结果的url链接

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用分页从地理数据集获取搜索结果的url链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >