请帮助用Python Regex从HTML标签中提取文本
我有以下的HTML文本:
Country/<i>List it here</i><br><font color="#ff00ff">Dubai</font><br><br>
我该如何从上面的HTML中提取出'Dubai'呢?我有几百行这样的内容,比较着急,所以不想去研究BeautifulSoup或者XML解析器的实现。
非常感谢!
1 个回答
2
因为你只是想要一个简单粗暴的解决方案,你可以使用:
re.match(r'.*>([^<>]*)</font>.*', s).group(1)
这个代码会抓取所有在关闭字体标签之前的非尖括号的内容。再说一次,这种方法不适合真正的解析。