我在抓取这个链接时遇到问题http://www.kooora.com/?c=12640&cm=m, 我想获取table#contentTable中的所有内容,但它不会返回所有这些内容。 当我在浏览器中查看html时,我发现在第二个标记之后有一个标记,代码读取到该标记之后才开始。在
#get teams
url='http://www.kooora.com/?c=12640&cm=m'
urlopen=urllib2.urlopen(url)
bso=BeautifulSoup(urlopen.read(),'html5lib')
tcontenttable=bso.find('table',attrs={'id':'contentTable'}).find('tbody')
print len(tcontenttable.find_all('tr')) # only 5
它只返回5,但是它远远大于5。在
原因可能是该网页不是有效的HTML(根据https://validator.w3.org/nu/?doc=http%3A%2F%2Fwww.kooora.com%2F%3Fc%3D12640%26cm%3Dm)。在
验证器特别指出:
在本例中,最好使用正则表达式来提取已知模式,而不是BeautifulSoup。在
相关问题 更多 >
编程相关推荐