在Scrapy中使用中间件忽略重复项

10 投票

1 回答

4120 浏览

提问于 2025-04-18 02:01

我刚开始学Python，正在用Scrapy做一个个人网站项目。

我用Scrapy从几个网站上反复提取数据，所以每次爬虫运行时，我需要检查一下链接是否已经在数据库里，只有没在数据库里的链接才会添加进去。我在一个叫pipelines.py的文件里实现了这个功能：

class DuplicatesPipline(object):
    def process_item(self, item, spider):
        if memc2.get(item['link']) is None:
            return item
        else:
            raise DropItem('Duplication %s', item['link'])

不过我听说用中间件（Middleware）来做这个会更好。

我发现用Scrapy的中间件有点难，不知道有没有人能推荐一个好的教程给我。

欢迎大家给我建议。

谢谢！

补充：

我在用MySql和memcache。

这是我根据@Talvalin的回答尝试的代码：

# -*- coding: utf-8 -*-

from scrapy.exceptions import IgnoreRequest
import MySQLdb as mdb
import memcache

connexion = mdb.connect('localhost','dev','passe','mydb')
memc2 = memcache.Client(['127.0.0.1:11211'], debug=1)

class IgnoreDuplicates():

    def __init__(self):
        #clear memcache object
        memc2.flush_all()

        #update memc2
        with connexion:
            cur = connexion.cursor()
            cur.execute('SELECT link, title FROM items')
            for item in cur.fetchall():
                memc2.set(item[0], item[1])

    def precess_request(self, request, spider):
        #if the url is not in memc2 keys, it returns None.
        if memc2.get(request.url) is None:
            return None
        else:
            raise IgnoreRequest()

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.IgnoreDuplicates': 543,
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500, }

但是看起来在爬虫运行时，process_request这个方法并没有被调用。

提前谢谢大家！

数据库 mysql 数据提取 scrapy middleware 重复项处理 memcache 爬虫教程

1 个回答

这里有一段示例代码，它是中间件的代码，主要功能是从一个sqlite3的表里加载网址，这个表的结构是(Id INT, url TEXT)。然后，它会把这些网址放到一个集合里，再检查请求的网址是否在这个集合中，以决定这个网址是否应该被忽略。把这段代码改成使用MySQL和memcache应该也不难，如果你有任何问题或者疑问，随时告诉我哦。:)

import sqlite3
from scrapy.exceptions import IgnoreRequest

class IgnoreDuplicates():

    def __init__(self):
        self.crawled_urls = set()

        with sqlite3.connect('C:\dev\scrapy.db') as conn:
            cur = conn.cursor()
            cur.execute("""SELECT url FROM CrawledURLs""")
            self.crawled_urls.update(x[0] for x in cur.fetchall())

        print self.crawled_urls

    def process_request(self, request, spider):
        if request.url in self.crawled_urls:
            raise IgnoreRequest()
        else:
            return None

如果你像我一样遇到导入问题，快要把显示器打碎了，以上的代码是在一个名为middlewares.py的文件里，这个文件放在项目的顶层文件夹中，并且有以下的DOWNLOADER_MIDDLEWARES设置。

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.IgnoreDuplicates': 543,
    'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500,
}

回答于 2025-04-18 由 Python大师

分享举报

在Scrapy中使用中间件忽略重复项

1 个回答

撰写回答