提到我的previous question,我必须刮一个酒店的评论(所有评论),例如这个hotel
通过使用BeautifulSoap
,我所做的是首先从具有类BVRRPager BVRRPageBasedPager
的div中的分页获取所有审阅页面链接,然后从所有页面中刮取审阅。
BeautifulSoap的问题是div.BVRRRatingSummary
中的内容没有出现(尝试在禁用JS的情况下借用该页面)
我已经用Selinium刮了评论,但是我的客户不想用Selinium,因为它加载了JS和图片的整个页面
我想知道他们会用什么样的过程来载入评论?有没有什么办法我可以用BeautifulSoap
刮取div.BVRRRatingSummary
中的内容?你知道吗
你可以尝试使用firefox和firebug插件。在加载网页时打开firebug,进入网络,然后单击XHR。这将显示正在加载的json文件。然后,您可以尝试直接获取这些文件,并使用simplejson之类的库处理这些文件。你知道吗
相关问题 更多 >
编程相关推荐