如何抓取网页导航涉及动态加载的网站

2024-05-29 01:36:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我想抓取一个有多个网页的网站,当一个页码被点击时,它是动态的上膛了。怎么了把它擦掉?在

也就是说,由于url没有作为href或a如何爬网到其他页面?在

如果有人帮我的话就太好了。在

PS:当点击不同的页面时,URL保持不变。在


Tags: url网页网站动态页面pshref页码
3条回答

您还应该考虑Ghost.py,因为它允许您快速运行任意javascript命令、填写表单和拍摄快照。在

如果你使用的是googlechrome,你可以检查动态调用的url network->headers的开发人员工具

基于此,您可以确定它是GET还是{}请求。在

如果是GET请求,则可以直接从url找到参数。在

如果是POST请求,您可以在network->headers中找到form data中的参数 开发人员工具。在

您可以在javascript代码中而不是HTML中查找所需的数据。这通常是一种痛苦,但您可以用正则表达式做一些有趣的事情。在

或者,一些浏览器测试库,如splinter在抓取之前,将页面加载到实际的浏览器(如firefox或chrome)中。如果你在安装了浏览器的机器上运行这个程序,其中一个就可以了。在

相关问题 更多 >

    热门问题