如何使用带有python的regex从XML文件中删除多个空格和字符？

网友

1楼 · 编辑于 2024-06-09 12:36:34

考虑以下方法—读取和解析xml、修改数据、编写xml。你知道吗

import xml.etree.ElementTree as ET

tree = ET.parse('1.xml')

for element in tree.findall('settings'):
    element.set('xmltv_id', element.get('xmltv_id').replace(' ', ''))

tree.write('2.xml')

原始xml 1.xml：

<note>
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
    <settings site_id="someID123" xmltv_id="Some text - dummy (2) HH">Some text - dummy (2) HH</settings>
</note>

修改的xml 2.xml：

<note>
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
    <settings site_id="someID123" xmltv_id="Sometext-dummy(2)HH">Some text - dummy (2) HH</settings>
</note>

网友

2楼 · 编辑于 2024-06-09 12:36:34

在解析结构化数据（如XML/HTML）时，Regex永远都不是一种健壮且合适的方法。使用适当的解析器。你知道吗

使用^{}模块和^{}函数：

import xml.etree.ElementTree as ET
import re

root = ET.parse('yourxml.xml').getroot()
pat = re.compile(r'[\s()-]+')    # regex character class for chars to replace

for el in root.findall('settings[@xmltv_id]'):
    el.set("xmltv_id", pat.sub('', el.get("xmltv_id")) + '.xx')

ET.dump(root)

样本输出：

<main>
  <settings site_id="someID123" xmltv_id="Sometextdummy2HH.xx">Some text - dummy (2) HH</settings>
  <settings site_id="moreID321" xmltv_id="MoreText.xx">More Text</settings>
</main>

您可以使用https://docs.python.org/3.7/library/xml.etree.elementtree.html#xml.etree.ElementTree.ElementTree.write轻松地将结果elementTree保存到新文件中

网友

3楼 · 编辑于 2024-06-09 12:36:34

我不认为用python中的一个regex就可以做到这一点。我能想到的解决办法是：

import re

def format_line(line):
    m = re.search('(.*xmltv_id=")(.*)(".*)', line)
    stripped_tag = re.sub(' |-|\(|\)','', m.group(2))
    return f'{m.group(1)}{stripped_tag}.xx{m.group(3)}'

>>> format_line('<settings site_id="someID123" xmltv_id="Some text - dummy (2) HH">Some text - dummy (2) HH</settings>')
'<settings site_id="someID123" xmltv_id="Sometextdummy2HH.xx">Some text - dummy (2) HH</settings>'

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用带有python的regex从XML文件中删除多个空格和字符？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >