如何在Python中获取td标签内的href值

0 投票
2 回答
3241 浏览
提问于 2025-04-18 15:19

我想要获取网页中所有在 td 标签里的 href 链接,前提是这些 td 标签的类名里包含特定的字符串。我已经成功使用 BeautifulSoup 模块获取了所有的 href 链接,但我只想要那些在特定 td 标签下的链接。请问用 BeautifulSoup 模块或者其他 Python 模块能做到这一点吗?

      <td title="" class="pass">
          <a href="link info">
            <div class="fill"></div>
          </a>
      </td>

      <td title="" class="fail">
          <a href="inlk">
            <div class="fill"></div>
          </a>
      </td>

      <div class="fill"></div>
   </a>
</td>

我想获取这个网页中所有类名为 passtd 标签里的 href 链接。

2 个回答

0

你可以使用一个CSS选择器

for link in soup.select('td.pass a[href]'):
    print link['href']
1
from BeautifulSoup import BeautifulSoup,SoupStrainer
import requests
import re
c_link = 'your_link'
r = requests.get(c_link)
data = r.text
soup = BeautifulSoup(data, parseOnlyThese=SoupStrainer("td"))
x = soup.findAll("a")
for tr in x:
    links = tr.get('href')
    print links

这段代码会从页面中获取标签里的链接(href)。希望这对你有帮助。

撰写回答