使用BeautifulSoup提取嵌入链接的文本

2024-04-27 03:58:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图提取一篇包含链接作为文本一部分的web文章的文本。例如:

<p>Here is some text with <a href="https://www.example.com"> this part as a link</a>
which we will look at.</p>

我试过用

^{pr2}$

但是这个命令忽略所有包含url的'p'标记(也就是说,它不会在第一个块中选取示例)。我的问题是,如何从“p”标签中提取文本,同时也包括嵌入的链接,以及如何删除链接的url,只保留突出显示的“thispartasa link”文本?非常感谢任何帮助。在


Tags: texthttps文本weburlhereis链接
1条回答
网友
1楼 · 发布于 2024-04-27 03:58:12

本质上是这样的:

>>> import bs4
>>> HTML = '''\
... <p>Here is some text with <a href="https://www.example.com"> this part as a link</a>
... which we will look at.</p>'''
>>> soup = bs4.BeautifulSoup(HTML, 'lxml')
>>> [p.text for p in soup.findAll('p')]
['Here is some text with  this part as a link\nwhich we will look at.']

当然,您很可能希望替换新行和多余的空格。在

相关问题 更多 >