页面上的所有链接

class MySpider(CrawlSpider): name = 'abc.com' allowed_domains = ['abc.com'] start_urls = ['http://www.abc.com'] rules = (Rule(SgmlLinkExtractor()), ) def parse_item(self, response): hxs = HtmlXPathSelector(response) item = AbcItem() item['key'] = response.url item['value'] = hxs.select('//a/@href').extract() return item

2条回答

网友

1楼 · 编辑于 2024-05-15 02:35:12

您应该为规则定义回调。下面是从twitter.com主页（follow=False）获取所有链接的示例：

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.item import Item, Field


class MyItem(Item):
    url= Field()


class MySpider(CrawlSpider):
    name = 'twitter.com'
    allowed_domains = ['twitter.com']
    start_urls = ['http://www.twitter.com']

    rules = (Rule(SgmlLinkExtractor(), callback='parse_url', follow=False), )

    def parse_url(self, response):
        item = MyItem()
        item['url'] = response.url
        return item

然后，在输出文件中，我看到：

http://status.twitter.com/
https://twitter.com/
http://support.twitter.com/forums/26810/entries/78525
http://support.twitter.com/articles/14226-how-to-find-your-twitter-short-code-or-long-code
...

希望能有所帮助。

网友

2楼 · 编辑于 2024-05-15 02:35:12

如果不显式设置回调函数，scrapy将使用方法parse来处理已爬网的页面。因此，应该添加parse_项作为回调，或者更改要解析的名称。

相关问题更多 >

编程相关推荐

热门问题

热门文章