我是Python新手,但我有一些Delphi的经验。 我正在尝试创建一个脚本,可以搜索目录中的所有xml文件(包括该目录中的所有子目录),然后解析这些xml并将其中的一些数据(数字)保存到一个简单的txt文件中。之后,我处理该txt文件,创建另一个txt文件,该文件只包含先前创建的txt文件中唯一的一组编号。在
我创建了这个脚本:
import os
from xml.dom import minidom
#for testing purposes
directory = os.getcwd()
print("Procházím aktuální adresář, hledám XML soubory...")
print("Procházím XML soubory, hledám IČP provádějícího...")
with open ('ICP_all.txt', 'w') as SeznamICP_all:
for root, dirs, files in os.walk(directory):
for file in files:
if (file.endswith('.xml')):
xmldoc = minidom.parse(file)
itemlist = xmldoc.getElementsByTagName('is')
SeznamICP_all.write(itemlist[0].attributes['icp'].value + '\n')
print("Vytvářím list unikátních IČP...")
with open ('ICP_distinct.txt','w') as distinct:
UnikatniICP = []
with open ('ICP_all.txt','r') as SeznamICP_all:
for line in SeznamICP_all:
if line not in UnikatniICP:
UnikatniICP.append(line)
distinct.write(line)
print('Počet unikátních IČP:' + str(len(UnikatniICP)))
input('Pro ukončení stiskni libovolnou klávesu...')
直到有了一个子目录,它才正常工作,在这种情况下,我得到错误:
^{pr2}$这是因为文件在子目录中,而不是在使用python脚本的目录中。我试图通过路径使其工作,以获取要使用的文件的绝对路径,但我得到了更多错误,请参阅脚本:
import os
from xml.dom import minidom
from pathlib import Path
#for testing purposes
directory = os.getcwd()
print("Procházím aktuální adresář, hledám XML soubory...")
print("Procházím XML soubory, hledám IČP provádějícího...")
with open ('ICP_all.txt', 'w') as SeznamICP_all:
for root, dirs, files in os.walk(directory):
for file in files:
if (file.endswith('.xml')):
soubor = Path(file).resolve()
print(soubor)
xmldoc = minidom.parse(soubor)
itemlist = xmldoc.getElementsByTagName('is')
SeznamICP_all.write(itemlist[0].attributes['icp'].value + '\n')
print("Vytvářím list unikátních IČP...")
with open ('ICP_distinct.txt','w') as distinct:
UnikatniICP = []
with open ('ICP_all.txt','r') as SeznamICP_all:
for line in SeznamICP_all:
if line not in UnikatniICP:
UnikatniICP.append(line)
distinct.write(line)
print('Počet unikátních IČP:' + str(len(UnikatniICP)))
input('Pro ukončení stiskni libovolnou klávesu...')
我现在遇到的错误我真的不明白,谷歌也帮不上忙-整个日志:
Procházím aktuální adresář, hledám XML soubory...
Procházím XML soubory, hledám IČP provádějícího...
C:\2_Programming\Python\IČP FINDER\src\20150225_1815_2561_1.xml
Traceback (most recent call last):
File "C:\2_Programming\Python\IČP FINDER\src\ICP Finder.py", line 17, in <module>
xmldoc = minidom.parse(soubor)
File "C:\2_Programming\Python\Interpreter\lib\xml\dom\minidom.py", line 1958, in parse
return expatbuilder.parse(file)
File "C:\2_Programming\Python\Interpreter\lib\xml\dom\expatbuilder.py", line 913, in parse
result = builder.parseFile(file)
File "C:\2_Programming\Python\Interpreter\lib\xml\dom\expatbuilder.py", line 204, in parseFile
buffer = file.read(16*1024)
AttributeError: 'WindowsPath' object has no attribute 'read'
你能帮帮我吗?在
您要寻找的模式如下:
在}所在的目录。在
for
循环的每个迭代中,root
引用files
和{正如Rob的回答中已经解释的那样,您的问题是因为您没有加入路径,所以一旦您离开cwd,您将在目录之外查找文件,但是在cwd中查找它们。在
由于您使用的是oythin3,因此您有几个其他选项来查找文件,如果python3版本是3.5,则可以使用glob递归搜索来查找所有xml文件:
或者,如果您使用的是python 3.4,则可以使用pathlib进行递归搜索:
^{pr2}$相关问题 更多 >
编程相关推荐