漂亮的汤解析网址来自凌乱的outpu - 问答 - Python中文网

漂亮的汤解析网址来自凌乱的outpu

2024-04-19 09:56:11 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有漂亮的汤代码，看起来像：

 for item in beautifulSoupObj.find_all('cite'):
            pagelink.append(item.get_text())

问题是，我试图解析的html代码如下所示：

<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>

我上面的当前选择器将获取所有内容，包括其中的strong标记

因此，如何仅解析：

https://www.websiteurl.com/id=6

注意<cite>在整个页面中出现多次，我想提取并打印所有内容

谢谢你

Tags：代码 in https com id 内容 for www

1条回答

网友

1楼 · 发布于 2024-04-19 09:56:11

只提取文本部分就像对对象执行.text一样简单。我们可以使用basicBeautifulSoup方法遍历树层次结构

关于如何做到这一点的有用解释：HERE

from bs4 import BeautifulSoup

html = '''<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>'''


soup = BeautifulSoup(html, 'html.parser')

print(soup.cite.text)
# is the same as soup.find('cite').text

相关问题更多 >

编程相关推荐

热门问题

热门文章