如果同一个href已被刮除，则删除该href

url = "http://www.fveconstruction.ch/anMetier.asp?M=04&R=4&PageSize=1000&BoolsMember=0" get_url = requests.get(url) get_text = get_url.text soup = BeautifulSoup(get_text, "html.parser") for link in soup.find_all("a", href=re.compile('anDetails.asp')): href = link.get('href') #If statement ? print(href)

2条回答

网友

1楼 · 编辑于 2024-06-16 08:43:32

这样做不需要任何条件语句。您只需使用^{}内置函数从结果中删除重复项

soup = BeautifulSoup(get_text, "html.parser")
links = {link['href'] for link in soup.find_all("a", href=re.compile('anDetails.asp'))} 
print(links)

网友

2楼 · 编辑于 2024-06-16 08:43:32

您可以尝试在find_all上使用set，但仍然很可能有重复项，因为对象可能不同，但仍然包含相同的href

在这种情况下，您只需创建一个列表并将每个href附加到列表中

然后，您可以创建一个if条件来检查它是否已经在列表中，然后再打印出来

所以你应该

href_list = []
for link in soup.find_all("a", href=re.compile('anDetails.asp')):

    href = link.get('href')
    if href not in href_list:
        print(href)
        href_list.append(href)

相关问题更多 >

编程相关推荐

热门问题

热门文章