2024-04-18 04:06:35 发布
网友
我对网络抓取还不熟悉,正在努力学习更多。我知道有些网站在向公众提供产品之前,会在后端加载产品。有没有一种方法可以使用HTML解析器或任何其他库访问这些信息
我怀疑网站开发人员在加载后使用动态javascript更改信息。或者使用不同的标记/类来隐藏信息
我在这里看到两个问题:
1)我可以访问Web服务器上未发送到客户端页面的信息吗
否。您只能刮取页面上存在的内容。任何其他行为都将是非法访问非公共服务器,而不仅仅是抓捕黑客
2)如果站点以异步和/或动态方式加载,我可以访问html主要部分之后加载的内容吗
是的,使用诸如selenium之类的浏览器自动化工具,您可以近似用户体验该站点,然后等待加载完整内容,然后再将其删除。这与simple requests/beautifulsoup不同,simple requests/beautifulsoup只在发送请求时收集HTML
我在这里看到两个问题:
1)我可以访问Web服务器上未发送到客户端页面的信息吗
否。您只能刮取页面上存在的内容。任何其他行为都将是非法访问非公共服务器,而不仅仅是抓捕黑客
2)如果站点以异步和/或动态方式加载,我可以访问html主要部分之后加载的内容吗
是的,使用诸如selenium之类的浏览器自动化工具,您可以近似用户体验该站点,然后等待加载完整内容,然后再将其删除。这与simple requests/beautifulsoup不同,simple requests/beautifulsoup只在发送请求时收集HTML
相关问题 更多 >
编程相关推荐