使用bs4/python3提取href?

2024-04-29 09:46:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我是python和bs4的新手,请对我宽容一点。你知道吗

#!/usr/bin/python3
import bs4 as bs
import urllib.request
import time, datetime, os, requests, lxml.html
import re
from fake_useragent import UserAgent

url = "https://www.cvedetails.com/vulnerability-list.php"
ua = UserAgent()
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}
snkr = requests.get(url,headers=header)
soup = bs.BeautifulSoup(snkr.content,'lxml')

for item in soup.find_all('tr', class_="srrowns"):
    print(item.td.next_sibling.next_sibling.a)

印刷品:

<a href="/cve/CVE-2017-6712/" title="CVE-2017-6712 security vulnerability details">CVE-2017-6712</a>
<a href="/cve/CVE-2017-6708/" title="CVE-2017-6708 security vulnerability details">CVE-2017-6708</a>
<a href="/cve/CVE-2017-6707/" title="CVE-2017-6707 security vulnerability details">CVE-2017-6707</a>
<a href="/cve/CVE-2017-1269/" title="CVE-2017-1269 security vulnerability details">CVE-2017-1269</a>
<a href="/cve/CVE-2017-0711/" title="CVE-2017-0711 security vulnerability details">CVE-2017-0711</a>
<a href="/cve/CVE-2017-0706/" title="CVE-2017-0706 security vulnerability details">CVE-2017-0706</a>

无法确定如何提取/cve/CVE-2017-XXXX/部分。也许我做得不对。我不需要标题或html,只是uri的


Tags: importurlbstitlehtmldetailsrequestslxml
1条回答
网友
1楼 · 发布于 2024-04-29 09:46:15

BeautifulSoup通常有太多用于过滤和获取内容的历史变体,其中一些变体比其他变体更烦人。我忽略了其中的大部分,因为这让人困惑。你知道吗

对于属性,我更喜欢get(),所以这里是item.td.next_sibling.next_sibling.a.get('href'),因为如果没有这样的属性,它将返回None,而不是给出异常。你知道吗

相关问题 更多 >