如何从我们正在抓取的网页上的链接网页抓取数据

import scrapy class QuotesSpider(scrapy.Spider): name = "student" start_urls = [ 'http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-karnataka?sort_filter=alpha', ] def parse(self, response): for students in response.css('li.search-result'): yield { 'name': students.css('div.title a::text').extract(), }

1条回答

网友

1楼 · 发布于 2024-05-15 22:50:57

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "student"
    start_urls = [
        'http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-karnataka?sort_filter=alpha',
    ]

    def parse(self, response):
        for students in response.css('li.search-result'):
            req = scrapy.Request(students.css(SELECT_URL), callback=self.parse_student)
            req.meta['name'] = students.css('div.title a::text').extract()
            yield req

    def parse_student(self, response):
        yield {
            'name': response.meta.get('name')
            'other data': response.css(SELECTOR)
        }

应该是这样的。所以你在请求的元数据中发送学生的名字。允许你在下一个请求中请求它。你知道吗

如果您在parse_student中刮取的最后一页上也有数据，您可能希望考虑不在元数据中发送它，而只是从最后一页刮取它。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从我们正在抓取的网页上的链接网页抓取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >