Python检查大量URL列表中断链接的工具

网友

1楼 · 编辑于 2024-06-16 09:16:42

我建议使用scrapy，因为您已经用这个工具查找每个URL，从而知道哪些URL出错了。这意味着您不必再次检查url。在

我会这样做的：

将每一个URL错误保存在一个单独的列表/映射中，并带有一个计数器（存储在两次运行之间）。在
每次URL出错时，递增计数器。如果没有，则递减计数器。在
运行Scrapy脚本后，用足够高的计数器检查这个列表/映射中的URL（假设有10个以上的错误），并删除它们-或将它们存储在单独的链接列表中，以便以后检查（作为检查，如果由于服务器停机时间过长而意外删除了一个有效的URL）。在

因为你的第三个问题是担心Scrapy对URL结果的不稳定，所以对于一般的网站来说也是如此。如果一个站点在一次尝试中出错，可能并不意味着链接断开。在

网友

2楼 · 编辑于 2024-06-16 09:16:42

您可以编写一个小脚本来检查返回的http状态，如下所示：

for url in urls:
    try:
        urllib2.urlopen(url)
    except urllib2.HTTPError, e:
        # Do something when request fails
        print e.code

这和你的第一点一样。您也可以运行这个异步，以便优化运行700k个链接所需的时间。在

网友

3楼 · 编辑于 2024-06-16 09:16:42

如果你想创建一个我们自己的脚本检查this solution
另外，我建议的一个优化是在URL存储库中建立层次结构。如果你从一个父URL得到404，你可以避免检查所有的it子URL

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python检查大量URL列表中断链接的工具

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >