使用Python BeautifulSoup和LazyLoader抓取网页
我正在玩弄BeautifulSoup这个工具,感觉还不错。
不过我遇到一个问题,想要抓取的网站使用了懒加载技术……这让我只能抓取到网站的一部分内容。
请问我该怎么继续呢?是不是需要看看懒加载是怎么实现的,或者需要调整其他参数吗?
1 个回答
1
其实问题并不是出在BeautifulSoup上,而是网页本身的动态加载方式。这个说法是针对特定情况的。
这个网页只返回了部分内容,所以我们需要分析网页的头部信息,并相应地发送给服务器。这并不是BeautifulSoup的问题。
因此,了解数据是如何在特定网站上加载的非常重要。并不是所有情况下都是“加载整个页面,处理整个页面”。在某些情况下,你需要先加载页面的一部分,然后向服务器发送特定的参数,才能继续加载剩下的内容。