我正在用scraper创建一个爬虫。
我的蜘蛛必须去开始页,其中包含了一个链接列表和下一页的链接。
然后,它必须跟随每个链接,转到这个链接,获取信息并返回主页。
最后,当spider跟踪页面的每个链接时,它会转到下一页并重新开始。
class jiwire(CrawlSpider):
name = "example"
allowed_domains = ["example.ndd"]
start_urls = ["page.example.ndd"]
rules = (Rule (SgmlLinkExtractor(allow=("next-page\.htm", ),restrict_xpaths=('//div[@class="paging"]',)), callback="parse_items", follow= True),)
def parse_items(self, response):
hxs = HtmlXPathSelector(response)
links = hxs.select('//td[@class="desc"]')
for link in links :
link = title.select("h3/a/@href").extract()
request = Request("http://v4.jiwire.com/" + str(name), callback=self.parse_sub)
return(request)
def parse_sub(self, response):
hxs = HtmlXPathSelector(response)
name = hxs.select('//div[@id="content"]/div[@class="header"]/h2/text()').extract()
print name
我示例了我的代码:我定义了一个规则来遵循下一页。
为了跟踪当前页面的每个链接,我创建了一个带有getted链接的request对象,并返回这个对象。
通常,对于每个请求返回,我必须在parse\u子函数中看到“print name”。
但只有一个链接被跟踪(不是全部),我不明白为什么。
它可以很好地抓取链接,请求对象也可以很好地创建,但是它在parse\ u sub中每个页面只输入一次。
你能帮助我吗?
多谢了
我回来了!我的问题来自我的回报声明。你知道吗
解决方案:
相关问题 更多 >
编程相关推荐