BeautifulSoup返回空的td标记

2条回答

网友

1楼 · 编辑于 2024-04-25 09:16:14

其背后的原因是我们需要使用类似Selenium的浏览器仿真器来呈现由javascript生成的动态内容。如果我们试图只通过请求请求来请求此数据，我们将无法获得您要查找的td。我推荐官方的Selenium文档或Youtube教程，一旦你掌握了一些东西，它很容易使用。在

Selenium Documentation

from bs4 import BeautifulSoup
import requests


asdf = requests.get('http://baloncestoenvivo.feb.es/Game/1881578').text
soup = BeautifulSoup(asdf, 'lxml')


tabl = soup.find('div',{'id':'keyfacts-playbyplay-content-scroll'}).find('div',{'class':'twelve columns'})

print(tabl)

这不起作用，它只返回不包含您要查找的信息的HTML的一部分（即表元素）

网友

2楼 · 编辑于 2024-04-25 09:16:14

表的内容是通过JavaScript动态生成的。这就是页面源没有它们的原因。requests模块在不执行JavaScript的情况下获取页面源代码，这就是为什么您看到不完整的数据。在

如果选中dev tools中Network选项卡下的XHR选项卡，则会向http://baloncestoenvivo.feb.es/api/KeyFacts/1881578发送一个请求，该请求将以JSON的形式返回数据。您可以使用requests模块及其内置的.json()函数解析此数据。在

唯一的问题是，您需要传递以下标题。如果没有它们，网站将阻止脚本，您将看到requests.exceptions.ConnectionError。在

import requests

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
           'Accept': 'application/json, text/javascript, */*; q=0.01'}

r = requests.get('http://baloncestoenvivo.feb.es/api/KeyFacts/1881578', headers=headers)
data = r.json()

现在可以从data变量获取所有表值。要查看其结构，请使用^{}模块。在

例如，要获取玩家名称和对应的点数，可以使用以下命令：

^{pr2}$

输出：

A. ELONU 6
L. NICHOLLS GONZALEZ 10
S. DOMINGUEZ FERNANDEZ 13
L. QUEVEDO CAÑIZARES 0
M. ASURMENDI VILLAVERDE 5
F. ABDI 0
E. DE SOUZA MACHADO 13
L. GIL COLLADO 0
K. GIVENS 12
D. MOSS 2
A. ROBINSON 0

相关问题更多 >

编程相关推荐

热门问题

热门文章