使用BeautifulSoup提取嵌入链接的文本

2024-04-27 03:58:12 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图提取一篇包含链接作为文本一部分的web文章的文本。例如：

<p>Here is some text with <a href="https://www.example.com"> this part as a link</a>
which we will look at.</p>

我试过用

^{pr2}$

但是这个命令忽略所有包含url的'p'标记（也就是说，它不会在第一个块中选取示例）。我的问题是，如何从“p”标签中提取文本，同时也包括嵌入的链接，以及如何删除链接的url，只保留突出显示的“thispartasa link”文本？非常感谢任何帮助。在

Tags： text https 文本 web url here is 链接

1条回答

网友

1楼 · 发布于 2024-04-27 03:58:12

本质上是这样的：

>>> import bs4
>>> HTML = '''\
... <p>Here is some text with <a href="https://www.example.com"> this part as a link</a>
... which we will look at.</p>'''
>>> soup = bs4.BeautifulSoup(HTML, 'lxml')
>>> [p.text for p in soup.findAll('p')]
['Here is some text with  this part as a link\nwhich we will look at.']

当然，您很可能希望替换新行和多余的空格。在

使用BeautifulSoup提取嵌入链接的文本

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用BeautifulSoup提取嵌入链接的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >