正在分析目录和所有子目录中的所有XML文件

import os from xml.dom import minidom #for testing purposes directory = os.getcwd() print("Procházím aktuální adresář, hledám XML soubory...") print("Procházím XML soubory, hledám IČP provádějícího...") with open ('ICP_all.txt', 'w') as SeznamICP_all: for root, dirs, files in os.walk(directory): for file in files: if (file.endswith('.xml')): xmldoc = minidom.parse(file) itemlist = xmldoc.getElementsByTagName('is') SeznamICP_all.write(itemlist[0].attributes['icp'].value + '\n') print("Vytvářím list unikátních IČP...") with open ('ICP_distinct.txt','w') as distinct: UnikatniICP = [] with open ('ICP_all.txt','r') as SeznamICP_all: for line in SeznamICP_all: if line not in UnikatniICP: UnikatniICP.append(line) distinct.write(line) print('Počet unikátních IČP:' + str(len(UnikatniICP))) input('Pro ukončení stiskni libovolnou klávesu...')

import os from xml.dom import minidom from pathlib import Path #for testing purposes directory = os.getcwd() print("Procházím aktuální adresář, hledám XML soubory...") print("Procházím XML soubory, hledám IČP provádějícího...") with open ('ICP_all.txt', 'w') as SeznamICP_all: for root, dirs, files in os.walk(directory): for file in files: if (file.endswith('.xml')): soubor = Path(file).resolve() print(soubor) xmldoc = minidom.parse(soubor) itemlist = xmldoc.getElementsByTagName('is') SeznamICP_all.write(itemlist[0].attributes['icp'].value + '\n') print("Vytvářím list unikátních IČP...") with open ('ICP_distinct.txt','w') as distinct: UnikatniICP = [] with open ('ICP_all.txt','r') as SeznamICP_all: for line in SeznamICP_all: if line not in UnikatniICP: UnikatniICP.append(line) distinct.write(line) print('Počet unikátních IČP:' + str(len(UnikatniICP))) input('Pro ukončení stiskni libovolnou klávesu...')

Procházím aktuální adresář, hledám XML soubory... Procházím XML soubory, hledám IČP provádějícího... C:\2_Programming\Python\IČP FINDER\src\20150225_1815_2561_1.xml Traceback (most recent call last): File "C:\2_Programming\Python\IČP FINDER\src\ICP Finder.py", line 17, in <module> xmldoc = minidom.parse(soubor) File "C:\2_Programming\Python\Interpreter\lib\xml\dom\minidom.py", line 1958, in parse return expatbuilder.parse(file) File "C:\2_Programming\Python\Interpreter\lib\xml\dom\expatbuilder.py", line 913, in parse result = builder.parseFile(file) File "C:\2_Programming\Python\Interpreter\lib\xml\dom\expatbuilder.py", line 204, in parseFile buffer = file.read(16*1024) AttributeError: 'WindowsPath' object has no attribute 'read'

2条回答

网友

1楼 · 编辑于 2024-06-08 01:59:35

您要寻找的模式如下：

with open ('ICP_all.txt', 'w') as SeznamICP_all:   
    for root, dirs, files in os.walk(directory):
        for file in files:
            if (file.endswith('.xml')):
                xmldoc = minidom.parse(os.path.join(root, file))
                itemlist = xmldoc.getElementsByTagName('is')
                SeznamICP_all.write(itemlist[0].attributes['icp'].value + '\n')

在for循环的每个迭代中，root引用files和{}所在的目录。在

网友

2楼 · 编辑于 2024-06-08 01:59:35

正如Rob的回答中已经解释的那样，您的问题是因为您没有加入路径，所以一旦您离开cwd，您将在目录之外查找文件，但是在cwd中查找它们。在

由于您使用的是oythin3，因此您有几个其他选项来查找文件，如果python3版本是3.5，则可以使用glob递归搜索来查找所有xml文件：

import glob
import os
from xml.dom import minidom

directory = os.getcwd()

with open ('ICP_all.txt', 'w') as SeznamICP_all:
    for file in glob.iglob(directory+'/**/*xml', recursive=True):
            xmldoc = minidom.parse(file)
            itemlist = xmldoc.getElementsByTagName('is')
            SeznamICP_all.write(itemlist[0].attributes['icp'].value + '\n')

或者，如果您使用的是python 3.4，则可以使用pathlib进行递归搜索：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章