例如,如果你在这里:https://www.basspro.com/shop/en/herters-hunting-rifle-ammo/
你会注意到在第一次加载时,它会显示所有库存。然后,页面将再次更新,并显示所有缺货的东西
有没有办法用beautifulsoup来解释这个问题?我开始认为我需要使用不同的策略来获取更新的HTML代码
目前,我的代码不返回任何内容,因为beautifulsoup提取的代码中没有“缺货”文本
content_wrapper = soup.find('div', class_='col2 gridCell StoreAvail editable anchored', id='StoreAvail_7')
cheese = content_wrapper.find('div', class_='sublist instore_inventory_section nodisplay',
id='WC_InStore_Inventory_Section_3074457345618960372')
print(cheese)
谢谢你的阅读
您正在爬网的站点不是在服务器端呈现的,而是在客户端呈现的,可能带有一些Javascript库/框架,如React.js或Angular
如果你想浏览这样的网站,你需要使用无头浏览器。最流行的无头浏览器也是Puppeteer and there is a port for Python
Puppeter启动一个真正的chromium实例,从而解析/呈现站点上所有Javascript驱动的内容。显然,这需要更长的时间
有关股票信息的数据是从不同的URL加载的。您可以使用此示例打印库存状态、数量等:
印刷品:
相关问题 更多 >
编程相关推荐