我遇到的问题快把我逼疯了。我正在尝试从职业足球参考网站中提取文本
我需要的信息在网页第二部分显示的td
元素中。该信息位于名为qb_hurry
的td元素中。以下是我到目前为止的情况:
res = requests.get('https://www.pro-football-reference.com/players/D/DonaAa00.htm')
soup = bs4.BeautifulSoup(res.text, 'html.parser')
我试过了
totalQbHurrys = soup.find('div', {'id':'all_detailed_defense'})
当我解析漂亮的汤对象并打印它时,我可以看到需要提取的信息。但是当我试图检索我需要的td
元素时
totalQbHurrys = soup.find('div', {'id':'all_detailed_defense'}).find('td', {'data-stat':'qb_hurry'})
它返回None
,我认为我要查找的文本首先是作为注释存在的,但是我很难找到我需要的实际HTML元素。有人知道一种成功地瞄准qb_hurry
元素的方法吗
您需要的HTML位于注释中,因此在
soup
中不会直接可见。您需要首先获取注释,然后将其解析为一个新的soup
对象。然后可以从中找到tr
和th
元素。例如:给你:
输出:
问题是该字段位于HTML注释标记内
这是一项决议:
PS:我用过这个技巧:https://stackoverflow.com/a/52874885/2186074
相关问题 更多 >
编程相关推荐