如何在Python中获取td标签内的href值
我想要获取网页中所有在 td
标签里的 href
链接,前提是这些 td
标签的类名里包含特定的字符串。我已经成功使用 BeautifulSoup 模块获取了所有的 href
链接,但我只想要那些在特定 td
标签下的链接。请问用 BeautifulSoup 模块或者其他 Python 模块能做到这一点吗?
<td title="" class="pass">
<a href="link info">
<div class="fill"></div>
</a>
</td>
<td title="" class="fail">
<a href="inlk">
<div class="fill"></div>
</a>
</td>
<div class="fill"></div>
</a>
</td>
我想获取这个网页中所有类名为 pass
的 td
标签里的 href
链接。
2 个回答
0
你可以使用一个CSS选择器:
for link in soup.select('td.pass a[href]'):
print link['href']
1
from BeautifulSoup import BeautifulSoup,SoupStrainer
import requests
import re
c_link = 'your_link'
r = requests.get(c_link)
data = r.text
soup = BeautifulSoup(data, parseOnlyThese=SoupStrainer("td"))
x = soup.findAll("a")
for tr in x:
links = tr.get('href')
print links
这段代码会从页面中获取