Scrapy:以下是正则表达式的链接

allowed_domains = ["musiker-board.de"] start_urls = ['http://www.musiker-board.de/forum/' ] rules = ( Rule(SgmlLinkExtractor(allow=[r'forum/\w+']), follow=True), Rule(SgmlLinkExtractor(allow=[r'threads/\w+']), callback='parse_item'), ) def parse_item(self, response): #extract items...

1条回答

网友

1楼 · 发布于 2024-04-24 03:50:02

以下代码（由您的代码片段生成）似乎可以正常工作：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class Scrapy1Spider(CrawlSpider):

    name = "musiker"
    allowed_domains = ["musiker-board.de"]
    start_urls = ['http://www.musiker-board.de/forum/'
             ]
    rules = (
        Rule(LinkExtractor(allow=[r'forum/\w+']), follow=True),
        Rule(LinkExtractor(allow=[r'threads/\w+']), callback='parse_item'),
    )

    def parse_item(self, response):
        self.logger.info('response.url=%s' % response.url)

至少有以下输出（被截断）：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

Scrapy:以下是正则表达式的链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >