Trulia桌子能不能只用scrapy来报废？ - 问答 - Python中文网

Trulia桌子能不能只用scrapy来报废？

2024-04-26 20:36:23 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我在寻找这类表格的内容：

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

我可以通过以下方式获得行：

rows = response.xpath('//*[@id="middle_tab_content"]/table/tr[]').extract()

问题是表中有几个页面保持相同的链接

http://www.trulia.com/school-district/CA-San_Francisco_County/San_Francisco_Unified/

行也保持相同的Xpath，表中没有任何更改

编辑。你知道吗

@Salman:我看到了网络标签，但找不到XHR子标签

Tags： com http 内容 www 方式标签表格 ca

1条回答

网友

1楼 · 发布于 2024-04-26 20:36:23

接下来的页面将使用XMLHttpRequest获取。如果您在浏览器中检查页面，您将找到该请求的url。第二页的内容如下：

http://www.trulia.com/q_schools_in_district.php?did=600116051&grade=elementary&page=2&sortby=testRating&sortdir=desc

您可以做的是刮取一个页面，然后使用this url请求下一个页面。只需替换&page=<page>查询中的页码即可获得每个页面。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章