XML解析Python元素树嵌套循环

2024-06-17 10:58:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Jupyter笔记本和ElementTree(Python 3)创建一个数据帧,并从XML文件保存为csv。以下是XML格式(爱沙尼亚语):

<asutused hetk="2020-04-14T03:53:33" ver="2">
    <asutus>
        <registrikood>10000515</registrikood>
        <nimi>Osaühing B.Braun Medical</nimi>
        <aadress />
        <tegevusload>
            <tegevusluba>
                <tegevusloa_number>L04647</tegevusloa_number>
                <alates>2019-12-10</alates>
                <kuni />
                <loaliik_kood>1</loaliik_kood>
                <loaliik_nimi>Eriarstiabi</loaliik_nimi>
                <haiglaliik_kood />
                <haiglaliik_nimi />
                <tegevuskohad>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                </tegevuskohad>
            </tegevusluba>
            <tegevusluba>
                <tegevusloa_number>L04651</tegevusloa_number>
                <alates>2019-12-11</alates>
                <kuni />
                <loaliik_kood>2</loaliik_kood>
                <loaliik_nimi>Õendusabi</loaliik_nimi>
                <haiglaliik_kood />
                <haiglaliik_nimi />
                <tegevuskohad>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                    <tegevuskoht>
                        <aadress>Harju maakond, Tallinn, Mustamäe linnaosa, J. Sütiste tee 17/1</aadress>
                        <teenused>
                            <teenus>
                                <kood>T0038</kood>
                                <nimi>ambulatoorsed üldkirurgiateenused</nimi>
                            </teenus>
                            <teenus>
                                <kood>T0236</kood>
                                <nimi>õe vastuvõtuteenus</nimi>
                            </teenus>
                        </teenused>
                    </tegevuskoht>
                </tegevuskohad>
            </tegevusluba>
        </tegevusload>
        <tootajad>
            <tootaja>
                <kood>D03091</kood>
                <eesnimi>Evo</eesnimi>
                <perenimi>Kaha</perenimi>
                <kutse_kood>11</kutse_kood>
                <kutse_nimi>Arst</kutse_nimi>
                <erialad>
                    <eriala>
                        <kood>E420</kood>
                        <nimi>üldkirurgia</nimi>
                    </eriala>
                </erialad>
            </tootaja>
            <tootaja>
                <kood>N01146</kood>
                <eesnimi>Karmen</eesnimi>
                <perenimi>Mežulis</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N01153</kood>
                <eesnimi>Nele</eesnimi>
                <perenimi>Terras</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N02767</kood>
                <eesnimi>Helena</eesnimi>
                <perenimi>Tern</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
            <tootaja>
                <kood>N12882</kood>
                <eesnimi>Hanna</eesnimi>
                <perenimi>Leemet</perenimi>
                <kutse_kood>15</kutse_kood>
                <kutse_nimi>Õde</kutse_nimi>
            </tootaja>
        </tootajad>
    </asutus>
</asutused>

每个“asutus”都是一家医院,我需要里面的一些信息。这是我的密码:

tree = ET.parse("od_asutused.xml")
root = tree.getroot()

# open a file for writing
data = open('EE.csv', 'w')

# create the csv writer object
csvwriter = csv.writer(data, delimiter=';')
head = []

count = 0
for member in root.findall('asutus'):
    hospital = []
    if count == 0:
        ident = member.find('registrikood').tag
        head.append(id)
        name = member.find('nimi').tag
        head.append(name)
        address = member.find('aadress').tag
        head.append(address)
        facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').tag
        head.append(facility_type)
        site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').tag
        head.append(site_address)
        for elem in member.findall('tegevusload'):
            list_specs = elem.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').tag
            head.append(list_specs)
        csvwriter.writerow(head)
        count = count + 1

    ident = member.find('registrikood').text
    hospital.append(ident)
    name = member.find('nimi').text
    hospital.append(name)
    address = member.find('aadress').text
    hospital.append(address)
    facility_type = member.find('./tegevusload/tegevusluba/haiglaliik_nimi').text
    hospital.append(facility_type)
    site_address = member.find('./tegevusload/tegevusluba/tegevuskohad/tegevuskoht/aadress').text
    hospital.append(site_address)
    for spec in elem.findall('tegevusload'):
        list_specs = spec.find('./tegevusluba/tegevuskohad/tegevuskoht/teenused/teenus/nimi').text
        hospital.append(list_specs)
    csvwriter.writerow(hospital)
data.close()

#Upload csv for geocoding
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

#Rename columns
df.rename(columns = {'<built-in function id>':'id', 
                     'nimi':'name',
                     'aadress':'address',
                     'haiglaliik_nimi':'facility_type',
                     'haiglaliik_kood':'facility_type_c',
                     'aadress.1':'site_address',
                     'nimi.1':'list_specs'},
          inplace = True) 

#Add columns
df['country'] = 'Estonia' 
df['cc'] = 'EE'

df.head(10)

以及测向头(10)的结果:

Result of dataframe

无论我做什么,“列表规格”都是空白的。如何使用每个站点地址的每个“nimi”列表填充此字段?多谢各位


Tags: addressfindmembernimiappendteenusedtegevuslubatootaja
1条回答
网友
1楼 · 发布于 2024-06-17 10:58:34

我发现您的代码中有以下几点需要更改:

  1. 至少在我的电脑上,调用csv.writer会导致换行符 是双倍的。我找到的补救办法是用 其他参数:

    data = open('EE.csv', 'w', newline='\n', encoding='utf-8') 
    
  2. 用爱沙尼亚的列名写head是没有意义的,然后 重命名列。还要注意,在head.append(id)中,您使用了未声明的 变量(id)。 但这并不重要,因为我用写作改变了整个部分 目标列名(见下文)

  3. 当您写入要被读取的CSV文件时,它应该包含一个 固定列数。因此,使用循环进行写入是一种不好的做法 一个因素

  4. 您的指令list_specs = elem.findall(...)错误,因为 elem未在当前回路中设置。相反,您应该使用成员(但是 我用另一种方式解决了这个细节)

  5. 仅仅为了使用一次而创建变量是没有意义的。 更简洁易读的代码是hospital.append(member.findtext('nimi'))

  6. 为了避免长XPath表达式重复初始部分,我决定 要在此路径的“中间”设置临时变量,例如。 tgvLb = member.find('tegevusload/tegevusluba')然后使用相对 XPath从此节点开始

  7. 您的重命名指令包含一个不需要的列,即facility\u type\u c。您只能阅读6列,不能阅读7列

因此,将代码的中间部分更改为:

data = open('EE.csv', 'w', newline='\n', encoding='utf-8')
csvwriter = csv.writer(data, delimiter=';')
head = ['id', 'name', 'address', 'facility_type', 'site_address', 'list_specs']
csvwriter.writerow(head)
for member in root.findall('asutus'):
    hospital = []
    hospital.append(member.findtext('registrikood'))
    hospital.append(member.findtext('nimi'))
    hospital.append(member.findtext('aadress'))
    tgvLb = member.find('tegevusload/tegevusluba')
    hospital.append(tgvLb.findtext('haiglaliik_nimi'))
    tgvKoht = tgvLb.find('tegevuskohad/tegevuskoht')
    hospital.append(tgvKoht.findtext('aadress'))
    hospital.append(tgvKoht.findtext('teenused/teenus/nimi'))
    csvwriter.writerow(hospital)
data.close()
df = pd.read_csv(r'EE.csv', na_filter= False, delimiter=';')

然后从代码中删除df.rename

相关问题 更多 >