使用BeautifulSoup获取结果中td标签的文本

from bs4 import BeautifulSoup from selenium import webdriver stat_dict={'Disposals' : 'sortableTable0', 'Kicks' : 'sortableTable1', 'Marks' : 'sortableTable2', 'Handballs' : 'sortableTable3', 'Goals' : 'sortableTable4', 'Behinds' : 'sortableTable5', 'Hitouts' : 'sortableTable6', 'Tackles' : 'sortableTable7', 'Rebounds' : 'sortableTable8', 'Inside50s' : 'sortableTable9', 'Clearances': 'sortableTable10', 'Clangers' : 'sortableTable11', 'FreesFor' : 'sortableTable12', 'FreesAgainst' : 'sortableTable13', 'ContestedPosessions' : 'sortableTable14', 'UncontestedPosesseions' : 'sortableTable15', 'ContestedMarks' : 'sortableTable16', 'MarksInside50' : 'sortableTable17', 'OnePercenters' : 'sortableTable18', 'Bounces' : 'sortableTable19', 'GoalAssists' : 'sortableTable20', 'Timeplayed' : 'sortableTable21'} driver = webdriver.Firefox(executable_path='...') url="https://afltables.com/afl/stats/teams/adelaide/2018_gbg.html" driver.get(url) html = driver.page_source soup = BeautifulSoup(html, "lxml") stat_wanted='Disposals' table = soup.find_all('table', {'id':stat_dict[stat_wanted]})

1条回答

网友

1楼 · 发布于 2024-05-16 20:45:30

您可能会发现以下方法更简单一些：

import pandas as pd    

tables = pd.read_html("https://afltables.com/afl/stats/teams/adelaide/2018_gbg.html")

for df in tables:
    df.drop(df.columns[9:], axis=1, inplace=True)   # remove unwanted columns
    df.columns = df.columns.droplevel(0)    # remove extra index level

for table in tables:
    print(table[:3:], '\n')  # show first 3 rows

这将为您提供pandas数据帧的列表。每个表包含每个表的所有信息。例如，第一个包含Disposals：

^{pr2}$

然后你可以用熊猫来处理数据。在

相关问题更多 >

编程相关推荐

热门问题

热门文章