我在寻找这类表格的内容:
http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/
我可以通过以下方式获得行:
rows = response.xpath('//*[@id="middle_tab_content"]/table/tr[]').extract()
问题是表中有几个页面保持相同的链接
http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/
行也保持相同的Xpath,表中没有任何更改
编辑。你知道吗
@Salman:我看到了网络标签,但找不到XHR子标签
接下来的页面将使用
XMLHttpRequest
获取。如果您在浏览器中检查页面,您将找到该请求的url。第二页的内容如下:您可以做的是刮取一个页面,然后使用this url请求下一个页面。只需替换
&page=<page>
查询中的页码即可获得每个页面。你知道吗相关问题 更多 >
编程相关推荐