我在Python中使用beauthoulsoup。
我尝试从包含哈希的链接中获取元素。这是一个分页链接,后面的部分是页码。在
它不起作用,我知道问题是因为urllib2不能处理这个问题,因为URL后面的部分用于客户端处理,并且从不发送到服务器。在
所以我用Chrome中的开发者工具的网络标签检查了真实的网址,它给了我这样的信息:
http://www.myserver.com/modules/blocklayered/blocklayered-ajax.php?_=1486617675431&id_category_layered=24&layered_weight_slider=0_10&layered_price_slider=21_2991&orderby=position&orderway=desc&n=20&p=3
看起来服务器根本不喜欢这个URL,因为它返回给我一个只包含这个奇怪结果的空白页面:{"filtersBlock":"\n\n
所以我的问题是,有没有办法处理这种与BeautifulSoup的联系?在
Tags:
我找到了一种方法,使用beauthulsoup来抓取DOM和Selenium来处理这些包含一个#的链接。只需使用
driver.get("www.myserver.com/products#/page-2")
传递包含#to Selenium驱动程序的链接就可以了。在相关问题 更多 >
编程相关推荐