Beautiful Soup:移除仅包含href的标签

1 投票
1 回答
865 浏览
提问于 2025-04-18 06:25

我从BeautifulSoup获取了一些特定标签的列表,其中有些标签只包含链接,没有其他文字。当我对这些标签使用get_text()方法时,我得到了链接的描述。

但是当标签包含一个<a href>元素时,我想忽略它。

Tag: <p class="abc">text1 <a href=...>desc</a> text2</p> -> result: text1 desc text2 (OKAY)

Tag: <p class="abc"><a href=...>desc</a></p> -> result: desc (NOT OKAY)

当标签只包含一个链接时,我想把它过滤掉。我该怎么做呢?

1 个回答

1

这个想法是遍历所有的 p 标签,检查每个标签里面是否只有一个子标签,并且这个子标签是 a 标签:

from bs4 import BeautifulSoup


data = """
<div>
    <p class="abc">text1 <a href='http://mysite1.com'>desc1</a> text2</p>
    <p class="abc"><a href='http://mysite2.com'>desc2</a></p>
    <p class="abc"><a href='http://mysite3.com'>desc3</a>text3</p>
    <p class="abc">text4<a href='http://mysite4.com'>des4</a></p>
    <p class="abc">text5</p>
</div>
"""
soup = BeautifulSoup(data)
for p in soup('p', class_='abc'):
    if len(p.contents) == 1 and p.contents[0].name == 'a':
        print p

输出结果是:

<p class="abc"><a href="http://mysite2.com">desc2</a></p>

顺便提一下,.contents 是用来获取标签里面所有子标签的列表。

撰写回答