刮纸困难

2024-06-16 11:58:29 发布

您现在位置:Python中文网/ 问答频道 /正文

提到我的previous question,我必须刮一个酒店的评论(所有评论),例如这个hotel

通过使用BeautifulSoap,我所做的是首先从具有类BVRRPager BVRRPageBasedPager的div中的分页获取所有审阅页面链接,然后从所有页面中刮取审阅。 BeautifulSoap的问题是div.BVRRRatingSummary中的内容没有出现(尝试在禁用JS的情况下借用该页面)

我已经用Selinium刮了评论,但是我的客户不想用Selinium,因为它加载了JS和图片的整个页面

我想知道他们会用什么样的过程来载入评论?有没有什么办法我可以用BeautifulSoap刮取div.BVRRRatingSummary中的内容?你知道吗


Tags: div内容链接js评论页面酒店hotel
1条回答
网友
1楼 · 发布于 2024-06-16 11:58:29

你可以尝试使用firefox和firebug插件。在加载网页时打开firebug,进入网络,然后单击XHR。这将显示正在加载的json文件。然后,您可以尝试直接获取这些文件,并使用simplejson之类的库处理这些文件。你知道吗

相关问题 更多 >