url的Python递归爬网

def crawlSite(self, linksList): finalList = [] for link in list(linksList): if link not in finalList: print link finalList.append(link) childLinks = self.getAllUniqueLinks(link) length = len(childLinks) print 'Total links for this page: ' + str(length) self.crawlSite(childLinks) return finalList

2条回答

网友

1楼 · 编辑于 2024-05-14 09:33:28

您正在清除每个递归调用上的finalLinks数组。在

现在需要的是一组更全局的链接，你已经访问过了。每个递归调用都应该有助于这个全局列表，否则，如果您的图有循环，您最终肯定会访问一个站点两次。在

更新：查看DFS on a graph using a python generator中使用的nice模式。您的finalList可以是参数，默认值为[]。在每次递归调用中添加到此列表。另外，FWIW，考虑一个set而不是list-它更快。在

网友

2楼 · 编辑于 2024-05-14 09:33:28

你需要

finalList.extend(self.crawlSite(childLinks))

不仅仅是

^{pr2}$

您需要将内部crawlSite()返回的列表与外部crawlSite()中已有的列表合并。即使它们都被称为finalList，但在每个作用域中都有一个不同的列表。在

另一种（也是更好的）解决方案是让finalList成为一个实例变量（或某种类型的非局部变量），而不仅仅是一个局部变量，这样它就被crawlSite()s的所有作用域共享：

def __init__(self, *args, **kwargs):
    self.finalList = set()

def crawlSite(self, linksList):
    for link in linksList:
        if link not in self.finalList:
            print link            
            self.finalList.add(link)
            childLinks = self.getAllUniqueLinks(link)
            length = len(childLinks)
            print 'Total links for this page: ' + str(length)
            self.crawlSite(childLinks)

如果您想用同一个实例从头开始，只需确保self.finalList = []。在

编辑：通过将递归调用放在if块中修复了代码。用了一套。另外，linksList不需要是一个列表，只需要一个iterable对象，因此从for循环中删除了list()调用。这是由@Ray Toal建议的

相关问题更多 >

编程相关推荐

热门问题

热门文章