用Scrapy编写instagram crawler。我怎样才能转到下一页？

2条回答

网友

1楼 · 编辑于 2024-04-23 11:56:47

在您还可以添加参数__a=1（如https://www.instagram.com/instagram/?__a=1）以仅在window._sharedData对象中包含JSON。在

我使用了类似这样的shell脚本来执行类似的操作：

username=instagram
max=
while :;do
  c=$(curl -s "https://www.instagram.com/$username/?__a=1&max_id=$max")
  jq -r '.user|.id as$user|.media.nodes[]?|$user+" "+.id+" "+.display_src'<<<"$c"
  max=$(jq -r .user.media.page_info.end_cursor<<<"$c")
  jq -e .user.media.page_info.has_next_page<<<"$c">/dev/null||break
done

网友

2楼 · 编辑于 2024-04-23 11:56:47

根据robots.txt策略，您应该avvoid爬行/api/、/publicapi/和{}路径，因此请仔细（负责任地）对用户分页进行爬网。在

从我所看到的分页也是从一个“loadmore”请求开始的，实际上是一个https://www.instagram.com/query/请求（您需要检查），它只有两个必需的值owner和{}，作为POST请求发送。在

这些值可以在'//script[contains(., "sharedData")]/text()'内的原始请求正文中找到

相关问题更多 >

编程相关推荐

热门问题

热门文章

用Scrapy编写instagram crawler。我怎样才能转到下一页？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >