2024-04-26 02:26:57 发布
网友
我用Scrapy在我的数据库中记录了html页面。我想用同样的管道重新分析它们。如何从数据库中获取页面,使其与正常的Scrapy管道遵循相同的管道?你知道吗
您可以编写自己的downloader middleware,并模仿标准HttpCacheMiddleware所做的工作。详细信息取决于您希望如何进行以及是否要重用当前的spider。你知道吗
HttpCacheMiddleware
如果您想使用currect spider,那么您的中间件必须:
process_request
Response
优点是你不必触摸你的蜘蛛。缺点是网站可能在此期间发生了更改,并且当前内容不必与保存的内容完全匹配。你知道吗
如果要创建新的spider或修改currect,则:
start_requests
Request
这样做的好处是你可以准确地处理你所保存的东西。缺点是您必须为此实现另一个spider。你知道吗
您可以编写自己的downloader middleware,并模仿标准
HttpCacheMiddleware
所做的工作。详细信息取决于您希望如何进行以及是否要重用当前的spider。你知道吗如果您想使用currect spider,那么您的中间件必须:
process_request
方法中获取每个请求的指纹。你知道吗Response
由该HTML创建。你知道吗优点是你不必触摸你的蜘蛛。缺点是网站可能在此期间发生了更改,并且当前内容不必与保存的内容完全匹配。你知道吗
如果要创建新的spider或修改currect,则:
start_requests
方法,并产生中间件可以处理的Request
(例如文件名、数据库id)。你知道吗Request
,中间件读取保存的页面并返回由HTML构建的Response
。你知道吗这样做的好处是你可以准确地处理你所保存的东西。缺点是您必须为此实现另一个spider。你知道吗
相关问题 更多 >
编程相关推荐