如何从chromes的Inspect Element>Network>XHR>Response>Headers>General中的网页中查找请求URL

2024-06-12 09:55:29 发布

您现在位置:Python中文网/ 问答频道 /正文

对不起,如果我不知道正确的术语,我是新来的网页抓取,请纠正我的术语,如果你喜欢它

我正在做一个项目,根据艺术家画廊的URL,从艺术家的所有作品中刮取图像。我正在做的是找到画廊每个页面的唯一id,这将引导我找到承载原始图像的网页。我已经可以刮从艺术页,我只需要从画廊的每一页的id的

艺术家画廊-->;艺术页面-->;刮削图像

gallery页面上每个页面的id在页面源代码中都不可用,因为我认为它是通过JavaScript单独加载的,所以我无法使用:

import requests
import urllib.request


response = requests.get(pageurl)
print(response.text)

但我发现,通过访问Chrome Inspect Element>;网络>;XHR>;回应>;标题>;一般来说,有一个请求URL,它包含我需要的所有id,下面是一个查询字符串参数部分,它包含我需要的所有id。 Picture of Query String Parameters

Picture of Request URL

我正在使用BeautifulSoup,但问题在于如何获取数据。 我还使用了具有类似结果的urllib.request.urlopen(pageurl)。我也尝试过Selenium,但仍然无法获取ID,虽然我可能没有正确地获取ID,但我能够访问该网页,但可能我没有使用正确的方法。现在,这就是我想尝试的。编辑:我用Selenium解决了这个问题。(我只是努力不够),但仍然希望得到一些关于拦截XHR的信息

Link to site if you really want to see it, but you may have to login


Tags: to图像importgtidurl网页request