regex:忽略几个下游xml标记

2024-04-25 00:01:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我只需要用regex提取xml的内容,但是忽略子标签:

输入如下:

<firstTag>k</firstTag><secondTag>jkjk</secondTag>
<ignoreTag><subIgnoreTag>j</subIgnoreTage>...</ignoreTag>
<ignoreTag><subIgnoreTag>j</subIgnoreTage>...</ignoreTag>
<thirdTage>3<thirdTag>...

我想要以下物品:

<firstTag>k</firstTag><secondTag>jkjk</secondTag>
<thirdTage>3<thirdTag>...

我试过这个:

(?P<test>.*)<ignoreTag>

看看我是否至少能得到第一部分,但我只是忽略了IgnoreTag的最后一次出现。。。你知道吗


Tags: test内容标签xml物品regexsecondtagjkjk
1条回答
网友
1楼 · 发布于 2024-04-25 00:01:49
import re

xml = """<firstTag>k</firstTag><secondTag>jkjk</secondTag>
      <ignoreTag><subIgnoreTag>j</subIgnoreTage>...</ignoreTag>
      <ignoreTag><subIgnoreTag>j</subIgnoreTage>...</ignoreTag>
      <thirdTage>3<thirdTag>"""

print(re.sub("<ignoreTag>.*?</ignoreTag>\n?", '', xml))

相关问题 更多 >