删除Python中除了某个html标记及其内容之外的所有内容

2024-04-19 02:10:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我在互联网上搜索过,除了某个标签和里面的内容外,找不到任何可以排除一切的东西。你知道吗

如何使用Python(beautifulsoup4)实现这一点?你知道吗

我有一个html:

<p><iframe width="1000" height="500" allowfullscreen="allowfullscreen" class="embed" src="#"> </iframe></p> <p>sdkjasdkljasldjad;j dadas dasdadada</p>

我需要删除所有其他文件,因此输出如下:

<iframe width="1000" height="500" allowfullscreen="allowfullscreen" class="embed" src="#"> </iframe>

我想到了这个,但它不知道如何更进一步:

@register.filter(name='only_iframe')
def only_iframe(content):
    soup = BeautifulSoup(content)

    for tag in soup.find_all('p', 'strong'):
        tag.replaceWith('')

    return soup.get_text()

Tags: src内容onlytag互联网embed标签content