Python中文
首页
教程
问答
标签
搜索
登录
注册
"仅允许宽幅Scrapy网页内部链接"
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在用Scrapy爬网成千上万的网站。我有一个大的域名列表要抓取。一切都很好,只是爬虫也遵循外部链接,这就是为什么它爬行的领域太多,超出了必要的范围。我已经尝试过在SGMLlinkextractor中使用“allow_domains”,但是当我解析一个巨大的域列表时,这不起作用。在</p> <p>所以我的问题是:我如何才能限制一个广泛的爬行到内部链接?在</p> <p>有什么好主意吗。在</p> <p>更新:该问题是由allow_domains列表引起的,该列表太大,无法处理scrapy</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>我可以通过修改SGMLlinkextractor来解决这个问题。在返回链接之前,我添加了以下两行:</p> <pre><code>domain = response.url.replace("http://","").replace("https://","").split("/")[0] links = [k for k in links if domain in k.url] </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何在Excel中读取公式并将其转换为Python中的计算?
8 回答
如何在excel中读取嵌入的excel,并将嵌入文件中的信息存储在主excel文件中?
3 回答
如何在Excel中返回未知列长度的非空顶行列值?
10 回答
如何在excel中选择数据列?
2 回答
如何在Excel中通过脚本自动为一列中的所有单元格创建公共别名
8 回答
如何在excel中高效格式化范围AttributeError:“tuple”对象没有属性“fill”
3 回答
如何在excel单元格中编写python函数
3 回答
如何在excel单元格中自动执行此python代码?
6 回答
如何在excel工作表中创建具有相应值的新列
3 回答
如何在Excel工作表中复制条件为单元格颜色的python数据框?
5 回答
如何在Excel工作表中循环
8 回答
如何在excel工作表中打印嵌套词典?
1 回答
如何在excel工作表中绘制所有类的继承树?
7 回答
如何在Excel工作表中自动调整列宽?
5 回答
如何在excel工作表中追加并进一步处理
7 回答
如何在excel工作表之间进行更改?
5 回答
如何在excel或csv上获取selenium数据?
7 回答
如何在Excel或Python中将正确的值赋给正确的列
3 回答
如何在excel或python中提取单词周围的文本?
10 回答
如何在excel或python中转换来自Jira的3w 1d 4h的fromat数据?
2 回答