使用BeautifulSoup、Python3.3.2从HTML中删除某些元素

2024-04-26 06:03:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我从一个网站上抓取数据,该网站将数据统一保存在多个网页的表格中,例如:

https://www.topsport.com.au/Racing/Thoroughbreds/Kalgoorlie/R3/3975255

我正在使用BeautifulSoup从#、Runner和Flucs列中抓取数据,以便我可以根据需要对它们进行组织。我刮得很成功,但我不喜欢被刮伤的马。当我把数据从字段中剔除时,这些马就会出现。您应该注意,scratched的马包含在tr class标签scratched中,而不在tr类中的马是未命名的。你知道吗

显示不同类的网页的HTML

<tr>...</tr> #classes that I want elements from
<tr class="scratched">...</tr> #classes I don't want elements from

这是我用来收集数据的代码,从网页上准备使用。你知道吗

ccnum = {'class' : 'competitorNumColumn'}
name = {'class' : 'rnnrName'}

saddC = soup.findAll(attrs = ccnum)
run = soup.findAll(attrs = name)

competitorNumColumn和rnnrName出现在这两个类中,是我想要的元素的标识符。你知道吗

问题: 我可以向Python代码中添加什么异常,以便除去包含在tr.刮伤集装箱?你知道吗


Tags: 数据代码namefrom网页网站elementstr