对不起,如果我不知道正确的术语,我是新来的网页抓取,请纠正我的术语,如果你喜欢它
我正在做一个项目,根据艺术家画廊的URL,从艺术家的所有作品中刮取图像。我正在做的是找到画廊每个页面的唯一id,这将引导我找到承载原始图像的网页。我已经可以刮从艺术页,我只需要从画廊的每一页的id的
艺术家画廊-->;艺术页面-->;刮削图像
gallery页面上每个页面的id在页面源代码中都不可用,因为我认为它是通过JavaScript单独加载的,所以我无法使用:
import requests
import urllib.request
response = requests.get(pageurl)
print(response.text)
但我发现,通过访问Chrome Inspect Element>;网络>;XHR>;回应>;标题>;一般来说,有一个请求URL,它包含我需要的所有id,下面是一个查询字符串参数部分,它包含我需要的所有id。 Picture of Query String Parameters
我正在使用BeautifulSoup,但问题在于如何获取数据。
我还使用了具有类似结果的urllib.request.urlopen(pageurl)
。我也尝试过Selenium,但仍然无法获取ID,虽然我可能没有正确地获取ID,但我能够访问该网页,但可能我没有使用正确的方法。现在,这就是我想尝试的。编辑:我用Selenium解决了这个问题。(我只是努力不够),但仍然希望得到一些关于拦截XHR的信息
Link to site if you really want to see it, but you may have to login
目前没有回答
相关问题 更多 >
编程相关推荐