不总是遵循Scrapy请求对象

2024-04-20 10:35:21 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在用scraper创建一个爬虫。
我的蜘蛛必须去开始页，其中包含了一个链接列表和下一页的链接。
然后，它必须跟随每个链接，转到这个链接，获取信息并返回主页。
最后，当spider跟踪页面的每个链接时，它会转到下一页并重新开始。

        class jiwire(CrawlSpider):
        name = "example"
        allowed_domains = ["example.ndd"]
            start_urls = ["page.example.ndd"]   

            rules = (Rule (SgmlLinkExtractor(allow=("next-page\.htm", ),restrict_xpaths=('//div[@class="paging"]',)), callback="parse_items", follow= True),)

        def parse_items(self, response):
                hxs = HtmlXPathSelector(response)
                links = hxs.select('//td[@class="desc"]')
                for link in links :
                    link = title.select("h3/a/@href").extract()
                    request = Request("http://v4.jiwire.com/" + str(name), callback=self.parse_sub)
                    return(request)


        def parse_sub(self, response):
            hxs = HtmlXPathSelector(response)
            name = hxs.select('//div[@id="content"]/div[@class="header"]/h2/text()').extract()
            print name

我示例了我的代码：我定义了一个规则来遵循下一页。
为了跟踪当前页面的每个链接，我创建了一个带有getted链接的request对象，并返回这个对象。
通常，对于每个请求返回，我必须在parse\u子函数中看到“print name”。
但只有一个链接被跟踪（不是全部），我不明白为什么。
它可以很好地抓取链接，请求对象也可以很好地创建，但是它在parse\ u sub中每个页面只输入一次。

你能帮助我吗？
多谢了

Tags：对象 name self div parse 链接 example response

1条回答

网友

1楼 · 发布于 2024-04-20 10:35:21

我回来了！我的问题来自我的回报声明。你知道吗

解决方案：

    for link in links :
        link = title.select("h3/a/@href").extract()
        request = Request(link, callback=self.parse_hotspot)
        yield request

不总是遵循Scrapy请求对象

相关问题更多 >

编程相关推荐

热门问题

热门文章

不总是遵循Scrapy请求对象

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >