我从一个网站上抓取数据,该网站将数据统一保存在多个网页的表格中,例如:
https://www.topsport.com.au/Racing/Thoroughbreds/Kalgoorlie/R3/3975255
我正在使用BeautifulSoup从#、Runner和Flucs列中抓取数据,以便我可以根据需要对它们进行组织。我刮得很成功,但我不喜欢被刮伤的马。当我把数据从字段中剔除时,这些马就会出现。您应该注意,scratched的马包含在tr class标签scratched中,而不在tr类中的马是未命名的。你知道吗
显示不同类的网页的HTML
<tr>...</tr> #classes that I want elements from
<tr class="scratched">...</tr> #classes I don't want elements from
这是我用来收集数据的代码,从网页上准备使用。你知道吗
ccnum = {'class' : 'competitorNumColumn'}
name = {'class' : 'rnnrName'}
saddC = soup.findAll(attrs = ccnum)
run = soup.findAll(attrs = name)
competitorNumColumn和rnnrName出现在这两个类中,是我想要的元素的标识符。你知道吗
问题: 我可以向Python代码中添加什么异常,以便除去包含在tr.刮伤集装箱?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐