Python中的Web抓取如何捕获所有<a>元素

[<table class="tdata"> <colgroup> <col style="width: 50px;"/> <col style="width: 430px;"/> <col style="width: 80px;"/> <col style="width: 80px;"/> </colgroup> <thead> <tr> <th>#</th> <th>Song</th> <th>Duration</th> <th> </th> </tr> </thead> <tbody> <tr> <td class="tal qx">1</td> <td class="tal qx"> <strong> <a href="/lyric/15183453/Make+You+Feel+My+Love">Make You Feel My Love</a> </strong> </td> <td class="tal qx">3:32</td> <td class="tal vam rt"> </td></tr><tr><td class="tal qx">2</td> <td class="tal qx"> <strong> <a href="/lyric/15183454/Painting+Pictures">Painting Pictures</a> </strong> </td> <td class="tal qx">3:33</td> <td class="tal vam rt"> </td> </tr> </tbody> </table>]

3条回答

网友

1楼 · 编辑于 2024-05-23 15:51:01

这将起作用：

songs = [song['href'] for song in soup.select('table a')]

输出：

['/lyric/15183453/Make+You+Feel+My+Love', '/lyric/15183454/Painting+Pictures']

网友

2楼 · 编辑于 2024-05-23 15:51:01

其他解决方案很好，但我更喜欢使用好的旧选择器

from bs4 import BeautifulSoup as bs
import requests as req
page = req.get('https://www.lyrics.com/album/1447935')
soup = bs(page.content, 'html.parser')
links = soup.select('table.tdata a[href]')
print(links)

这将打印

[<a href="/lyric/15183453/Make+You+Feel+My+Love">Make You Feel My Love</a>, <a href="/lyric/15183454/Painting+Pictures">Painting Pictures</a>]

如果您不熟悉选择器，这将获取具有类tdata的table元素，然后收集a元素上的所有href属性

网友

3楼 · 编辑于 2024-05-23 15:51:01

能够使它与：

for a in soup.findAll('a'):
    if a.parent.name == 'strong':
        if a.parent.parent.name == 'td':
            print(a["href"])

不过，我仍然不知道为什么其他方法不起作用，因为我在程序的其他地方使用过它，没有任何问题。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章