"仅允许宽幅Scrapy网页内部链接"

2条回答

网友

1楼 · 编辑于 2024-04-29 05:40:42

我可以通过修改SGMLlinkextractor来解决这个问题。在返回链接之前，我添加了以下两行：

domain = response.url.replace("http://","").replace("https://","").split("/")[0]
links = [k for k in links if domain in k.url]

网友

2楼 · 编辑于 2024-04-29 05:40:42

OffsiteMiddleware是您应该考虑使用的：

class scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware
Filters out Requests for URLs outside the domains covered by the spider.
This middleware filters out every request whose host names aren’t in the spider’s allowed_domains attribute.

编程相关推荐

试图读取字段“java”。lang.反对安卓。util。一对首先
gradle对java的影响。属性作为任务的输入？
java我的return语句不起作用。我做错了什么？
java通用同步代码块[无对象锁定]
macos Java小程序游戏不能在Mac上运行，即使它可以在PC上运行
java Firebase GeoFire设置位置未在服务中工作
java排序字符串对象
java通过JLabel上传背景图像（jpg）后，如何将图像缩放到它所在的面板上？
java无法连接到jsp中的数据库
java如何在整个ant taskdef操作的执行过程中拥有一个singleton类实例

相关问题更多 >

编程相关推荐

热门问题

热门文章

"仅允许宽幅Scrapy网页内部链接"

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >