如何存放一张有刮痧的桌子？

import scrapy class mySpider(scrapy.Spider): name = "education" def start_requests(self): urls = [ 'http://databank.worldbank.org/data/reports.aspx?source=2&series=SE.PRM.NENR&country=', ] for url in urls: yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): page = response.url.split("/")[-2] filename = 'education-%s.html' % page with open(filename, 'wb') as f: f.write(hxs.select('//table[@class="grdTableView_DXMainTable"]/td.//text()').extract()) self.log('Saved file %s' % filename)

1条回答

网友

1楼 · 发布于 2024-04-25 09:28:00

代码中有些地方不正确：

1）您使用的hxs.select代码的任何部分都没有定义。你知道吗

2）值grdTableView_DXMainTable不是class名称，而是ID。您可以使用以下方法提取所有表信息： response.xpath('//table[@id="grdTableView_DXMainTable"]//td//text()').extract()

3）如果要保留所有HTML代码，最好这样做： response.xpath('//table[@id="grdTableView_DXMainTable"]').extract_first()

相关问题更多 >

编程相关推荐

热门问题

热门文章