我有漂亮的汤代码,看起来像:
for item in beautifulSoupObj.find_all('cite'):
pagelink.append(item.get_text())
问题是,我试图解析的html代码如下所示:
<cite>https://www.<strong>websiteurl.com/id=6</strong></cite>
我上面的当前选择器将获取所有内容,包括其中的strong
标记
因此,如何仅解析:
https://www.websiteurl.com/id=6
注意<cite>
在整个页面中出现多次,我想提取并打印所有内容
谢谢你
只提取文本部分就像对对象执行
.text
一样简单。 我们可以使用basicBeautifulSoup方法遍历树层次结构关于如何做到这一点的有用解释:HERE
相关问题 更多 >
编程相关推荐