擅长:python、mysql、java
<p>抓取一些现代web页面是一个真正的问题,特别是在由单页面应用程序生成的页面上(其中内容是通过AJAX调用和DOM修改来维护的,而不是作为准备就绪的HTML在单服务器响应中交付)。</p>
<p>我发现访问此类内容的最佳方法是使用Selenium web测试环境,让浏览器在我的程序控制下加载页面,然后从Selenium中提取页面内容以进行刮擦。还有其他一些环境将执行脚本并适当地修改DOM,但我没有使用其中的任何一个。</p>
<p>这并不像听起来那么难,但要想达到目的,你得绕一圈。</p>