在BeautifulSoup中匹配标签
我正在尝试计算从BeautifulSoup结果中得到的“soup”里的标签数量。我想用正则表达式来实现,但遇到了一些问题。
reg_exp_tag = re.compile("<[^>*>")
tags = re.findall(reg_exp_tag, soup(cast as a string))
但是使用re
时,reg_exp_tag
却不行,出现了意外的正则表达式结束错误。
如果有人能帮忙,我将非常感激!
谢谢
2 个回答
4
如果你已经用BeautifulSoup解析过HTML了,为什么还要再解析一次呢?试试这个:
num_tags = len(soup.findAll())
1
难道应该是 "<[^>]*>"
而不是 "<[^>*>"
吗?
(这个类需要用一个 ]
来结束)