我正在抓取一个网站,我不想打印两个相同的href,但只打印一个。我搞不懂,有人能给我一个直觉来跟随吗
url = "http://www.fveconstruction.ch/anMetier.asp?M=04&R=4&PageSize=1000&BoolsMember=0"
get_url = requests.get(url)
get_text = get_url.text
soup = BeautifulSoup(get_text, "html.parser")
for link in soup.find_all("a", href=re.compile('anDetails.asp')):
href = link.get('href')
#If statement ?
print(href)
例如,在这里,如果a运行代码,我将使每个href链接加倍。是否有if语句删除并保留其中一个
这样做不需要任何条件语句。您只需使用^{} 内置函数从结果中删除重复项
您可以尝试在
find_all
上使用set
,但仍然很可能有重复项,因为对象可能不同,但仍然包含相同的href在这种情况下,您只需创建一个列表并将每个href附加到列表中
然后,您可以创建一个if条件来检查它是否已经在列表中,然后再打印出来
所以你应该
相关问题 更多 >
编程相关推荐