如何删除带有特定域名或字符串的url链接

print links #scrape() http://www.web1.to/something http://www.web2.gov.uk/something http://www.web3.com/something http://www.web4.com/something http://www.web5.com/something http://www.web6.com/something

def scrape() . . links = re.findall('href="(http.*?)"', sourceCode) for link in set(links): if 'web1.to' in link: pass elif 'web2.gov.' in link: pass elif '.rdf' in link: pass else: return link #print link; #it seems to work(*) #this section which call scrape function and prints the links for web in scrape(): print web time.sleep(1)

if 'web1.to' in link: pass elif 'web2.gov.' in link: pass elif 'web3.com' in link: pass else: return link

2条回答

网友

1楼 · 编辑于 2024-06-07 06:00:09

请执行以下操作：

def scrape()
    .
    .
            links = re.findall('href="(http.*?)"', sourceCode)
            return links

links =  scrape()
for link in links:
    if 'web1.to' in link:
        pass
    elif 'web2.gov.' in link:
        pass
    elif 'web3.com' in link:
        pass
    else:                       
        print link

案例2：

您已经从内部删除了for循环，现在尝试访问"link"来检查各种条件，但是link没有定义，因此出现了错误。你知道吗

网友

2楼 · 编辑于 2024-06-07 06:00:09

函数正在返回找到的第一个有效链接。尝试在scrape函数顶部添加新列表：

valid = []

每次找到有效链接时，请将其附加到有效链接列表中：

valid.append(link)

检查完所有链接后，返回整个列表：

return valid

尝试以下操作：

valid = []
for link in set(links):
    if 'web1.to' in link:
        pass
    elif 'web2.gov.' in link:
        pass
    elif '.rdf' in link:
        pass
    else:                       
        valid.append(link)

return valid

相关问题更多 >

编程相关推荐

热门问题

热门文章