在Scrapy中使用中间件忽略重复项
我刚开始学Python,正在用Scrapy做一个个人网站项目。
我用Scrapy从几个网站上反复提取数据,所以每次爬虫运行时,我需要检查一下链接是否已经在数据库里,只有没在数据库里的链接才会添加进去。我在一个叫pipelines.py的文件里实现了这个功能:
class DuplicatesPipline(object):
def process_item(self, item, spider):
if memc2.get(item['link']) is None:
return item
else:
raise DropItem('Duplication %s', item['link'])
不过我听说用中间件(Middleware)来做这个会更好。
我发现用Scrapy的中间件有点难,不知道有没有人能推荐一个好的教程给我。
欢迎大家给我建议。
谢谢!
补充:
我在用MySql和memcache。
这是我根据@Talvalin的回答尝试的代码:
# -*- coding: utf-8 -*-
from scrapy.exceptions import IgnoreRequest
import MySQLdb as mdb
import memcache
connexion = mdb.connect('localhost','dev','passe','mydb')
memc2 = memcache.Client(['127.0.0.1:11211'], debug=1)
class IgnoreDuplicates():
def __init__(self):
#clear memcache object
memc2.flush_all()
#update memc2
with connexion:
cur = connexion.cursor()
cur.execute('SELECT link, title FROM items')
for item in cur.fetchall():
memc2.set(item[0], item[1])
def precess_request(self, request, spider):
#if the url is not in memc2 keys, it returns None.
if memc2.get(request.url) is None:
return None
else:
raise IgnoreRequest()
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.IgnoreDuplicates': 543,
'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500, }
但是看起来在爬虫运行时,process_request这个方法并没有被调用。
提前谢谢大家!
1 个回答
10
这里有一段示例代码,它是中间件的代码,主要功能是从一个sqlite3的表里加载网址,这个表的结构是(Id INT, url TEXT)
。然后,它会把这些网址放到一个集合里,再检查请求的网址是否在这个集合中,以决定这个网址是否应该被忽略。把这段代码改成使用MySQL和memcache应该也不难,如果你有任何问题或者疑问,随时告诉我哦。:)
import sqlite3
from scrapy.exceptions import IgnoreRequest
class IgnoreDuplicates():
def __init__(self):
self.crawled_urls = set()
with sqlite3.connect('C:\dev\scrapy.db') as conn:
cur = conn.cursor()
cur.execute("""SELECT url FROM CrawledURLs""")
self.crawled_urls.update(x[0] for x in cur.fetchall())
print self.crawled_urls
def process_request(self, request, spider):
if request.url in self.crawled_urls:
raise IgnoreRequest()
else:
return None
如果你像我一样遇到导入问题,快要把显示器打碎了,以上的代码是在一个名为middlewares.py
的文件里,这个文件放在项目的顶层文件夹中,并且有以下的DOWNLOADER_MIDDLEWARES
设置。
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.IgnoreDuplicates': 543,
'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500,
}