我使用beautifulsoup从html字符串中提取图像和链接。这一切都工作得很好,但是有些链接在链接内容中有一个标记,它会抛出一个错误。
示例链接:
<a href="http://www.example.com"><strong>Link Text</strong></a>
Python代码:
soup = BeautifulSoup(contents)
links = soup.findAll('a')
for link in links:
print link.contents # generates error
print str(link.contents) # outputs [Link Text]
错误消息:
TypeError: sequence item 0: expected string, Tag found
我真的不想在链接文本中循环任何子标记,我只想返回原始内容,这对BS是可能的吗?
要仅获取标记的文本内容,^{} method 允许您从当前元素(包括标记)中获取(剥离)文本:
第一个参数用于连接所有文本元素,而将
strip
放置到True
则意味着所有文本元素都将首先去掉前导和尾随空白。在大多数情况下,这会为您提供整洁的处理文本。您还可以使用^{} iterable :
这基本上是相同的效果,但是您可以选择先处理或过滤剥离的字符串。
要获取内容,请对每个子项使用
str()
或unicode()
:这对包含的
Element
和NavigableString
项都有效。相关问题 更多 >
编程相关推荐