Python从特定选项卡解析ulsoup

from bs4 import BeautifulSoup from urllib.request import Request, urlopen import re req = Request("https://www.spotrac.com/nba/atlanta-hawks/cap/") html_page = urlopen(req) soup = BeautifulSoup(html_page, features="html.parser") links = [] for link in soup.find_all('a'): links.append(link.get('href')) players=[] i=0 while i<len(links): if "redirect/player" in links[i]: players.append(links[i]) i+=1 print(players)

3条回答

网友

1楼 · 编辑于 2024-04-19 22:27:47

您可以在下面调整此代码。你知道吗

import requests
from bs4 import BeautifulSoup

url = 'https://www.spotrac.com/nba/atlanta-hawks/cap/'

headers = {'Host': 'www.spotrac.com',
           'Referer': 'https://www.spotrac.com/nba/atlanta-hawks/cap/',
           'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}

pageTree = requests.get(url, headers=headers)
soup = BeautifulSoup(pageTree.content, 'lxml')

table = soup.find('tbody')
links = table.find_all('a')

for item in links:
    print(str(item.text), str(item['href']))

结果：

Kent Bazemore https://www.spotrac.com/redirect/player/11079/
Miles Plumlee https://www.spotrac.com/redirect/player/10851/
Dewayne Dedmon https://www.spotrac.com/redirect/player/13536/
Trae Young https://www.spotrac.com/redirect/player/26971/
Alex Len https://www.spotrac.com/redirect/player/13318/
Taurean Prince https://www.spotrac.com/redirect/player/20217/
Justin Anderson https://www.spotrac.com/redirect/player/17849/
John Collins https://www.spotrac.com/redirect/player/23614/
Kevin Huerter https://www.spotrac.com/redirect/player/26985/
DeAndre' Bembry https://www.spotrac.com/redirect/player/20226/
Omari Spellman https://www.spotrac.com/redirect/player/26996/
Vince Carter https://www.spotrac.com/redirect/player/2590/
Tyler Dorsey https://www.spotrac.com/redirect/player/23642/
Jaylen Adams https://www.spotrac.com/redirect/player/27343/
Jordan Sibert https://www.spotrac.com/redirect/player/18240/

如果这是您需要的，请将此答案标记为已接受。你知道吗

网友

2楼 · 编辑于 2024-04-19 22:27:47

首先对包含第一组名称的表使用find，可以缩小范围：

...
table = soup.find('tbody')

for link in table.find_all('a'):
...

通过查看源代码，您需要的数据似乎位于tbody。你知道吗

网友

3楼 · 编辑于 2024-04-19 22:27:47

我会考虑使用first-childcss选择器来限制到第一个表；您可以使用descendant combinator来选择表中的href属性（您的链接）。你知道吗

import requests
from bs4 import BeautifulSoup as bs
url = 'https://www.spotrac.com/nba/atlanta-hawks/cap/'
res = requests.get(url)
soup = bs(res.content, 'lxml')
links = [item['href'] for item in soup.select('table:first-child [href]')]
print(links)

相关问题更多 >

编程相关推荐

热门问题

热门文章