正规表达式提取和排除字符串中的数据

s="<ul><li>this is a bullet lev 1 </li><li><ul><li><strong> this</strong> is a bullet lev </li></ul></li><li> <ul><li><ul><li>this is a bullet lev 3</li></ul></li></ul></li></ul></ul><strong></li>

2条回答

网友

1楼 · 编辑于 2024-04-18 17:59:59

我想这也许能解决问题。在

<li>((?!<li>).)*?</li>

应该匹配任何<li>后跟</li>以及两者之间的任何内容，只要它们不包含<li>（使用lookahead）

这假设您实际上并不想要<li> <ul><li><ul><li>this is a bullet lev 3</li>，而是希望在您的示例中使用<li>this is a bullet lev 3</li>，这似乎更符合您的描述。在

也就是说，一般来说，对于这类事情，解析器确实是一个更好的主意。在

网友

2楼 · 编辑于 2024-04-18 17:59:59

我以前从未使用过BeautifulSoup，但我在15分钟内安装了它，而且没有阅读任何文档：

>>> s="<ul><li>this is a bullet lev 1&nbsp;</li><li><ul><li><strong>&nbsp;this</strong> is a bullet lev&nbsp;</li></ul></li><li>&nbsp;<ul><li><ul><li>this is a bullet lev 3</li></ul></li></ul></li></ul></ul><strong></li>"
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup(s)
>>> for liRaw in soup.findAll('li'):
...   if liRaw.findParent().findParent().name == u'[document]':
...     print liRaw.text
this is a bullet lev 1&nbsp;
&nbsp;thisis a bullet lev&nbsp;
&nbsp;this is a bullet lev 3

希望这能帮助。。。在

相关问题更多 >

编程相关推荐

热门问题

热门文章