如果一个网站在后端加载了一个产品,但尚未向公众发布,我可以访问该信息吗?

2024-04-18 04:06:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我对网络抓取还不熟悉,正在努力学习更多。我知道有些网站在向公众提供产品之前,会在后端加载产品。有没有一种方法可以使用HTML解析器或任何其他库访问这些信息

我怀疑网站开发人员在加载后使用动态javascript更改信息。或者使用不同的标记/类来隐藏信息


Tags: 方法标记网络信息解析器产品开发人员网站
1条回答
网友
1楼 · 发布于 2024-04-18 04:06:35

我在这里看到两个问题:

1)我可以访问Web服务器上未发送到客户端页面的信息吗

。您只能刮取页面上存在的内容。任何其他行为都将是非法访问非公共服务器,而不仅仅是抓捕黑客

2)如果站点以异步和/或动态方式加载,我可以访问html主要部分之后加载的内容吗

是的,使用诸如selenium之类的浏览器自动化工具,您可以近似用户体验该站点,然后等待加载完整内容,然后再将其删除。这与simple requests/beautifulsoup不同,simple requests/beautifulsoup只在发送请求时收集HTML

相关问题 更多 >