用Python解析复杂文本文件进行数据分析
我对Python或者编程完全是个新手。
我有一个文本文件需要转换成CSV格式。现在我无法提供这个文本文件的例子。
- 这个文本有几千行,没有换行符。
- 文件里有四种类型的记录(A、B、C或I)。
- 每种记录类型都有特定的格式,这取决于数据的大小。
- 文件里没有分隔符。
- 每种记录的最后一个数据元素后面,紧接着就是下一种记录。
- 我一直在尝试把其他语言的写法翻译成Python的样子。
这是我写的一个例子(格式不正确)
file=open('TestPython.txt'), 'r' # from current working directory
dataString=file.read()
data=()
i=0
while i < len(dataString):
i = i+2
curChar = dataString(i)
# Need some help on the next line var curChar = dataString[i]
if curChar = "A"
NPI = dataString(i+1, 16) # Need to verify that is how it is done in python inside ()
NPI.strip()
PCN = datastring(i+17, 40)
PCN.strip()
seqNo = dataString(i+41, 42)
seqNo.strip()
MRN = dataString(i+43, 66)
MRN.strip()
if curChar = "B"
NPI = dataString(i+1, 16) # Need to verify that is how it is done in python inside ()
NPI.strip()
PCN = datastring(i+17, 40)
PCN.strip()
seqNo = dataString(i+41, 42)
seqNo.strip()
RC1 = (i+43, 46)
RC1.strip()
RC2 = (i+47, 50)
RC2.strip()
RC3 = (i+51, 54)
RC3.strip()
if curChar = "C"
NPI = dataString(i+1, 16) # Need to verify that is how it is done in python inside ()
NPI.strip()
PCN = datastring(i+17, 40)
PCN.strip()
seqNo = dataString(i+41, 42)
seqNo.strip()
DXVer = (i=43, 43)
DXVer.strip()
AdmitDX = (i+44, 50)
AdmitDX.strip()
RVisit1 = (i+51, 57)
RVisit1.strip()
这里是文本文件的一部分的虚构版本。
A 63489564696474677 9845687 777 67834717467764674 TUANU TINBUNIU 47 ERTYNU TDFGH UU748897764 66762589668777486U6764467467774767 7123609989 9 O
B 79466945684634677 676756787344786474634890 7746.66 7 96 4 7 7 9 7 774666 44969 494 7994 99666 77478 767766
B 098765477 64697666966667 9 99 87966 47798 797499
C 63489564696474677 6747494 7494 7497 4964 4976 N7469 4769 N9784 9677
I 79466944696474677 677769U6 8888 67764674
A 79466945684634677 6767994 777 696789989 6464467464764674 UIIUN UITTI 7747 NUU 9 ATU 4 UANU OSASDF NU67479 66567896667697487U6464467476777967 7699969978 7699969978 9 O
正如你所看到的,文件中可以有多种类型的记录。这个例子看起来每种类型都是行首的第一个字符,但实际上在真实文件中并不是这样(我是在Word里做的这个样本)。
2 个回答
你最好在读取文件的时候就处理它。
首先,使用 file.read(1)
来判断接下来是什么类型的记录。
然后,根据记录的类型来读取字段。如果我理解得没错,这些字段是固定宽度的。所以对于类型 'A',你可以这样做:
def processA (file):
NPI = file.read(16).strip() #assuming the NPI is 16 bytes long
PCN = file.read(23).strip() #assuming the PCN is 23 bytes long
seqNo = file.read(1).strip() #assuming seqNo is 1 byte long
MRN = file.read(23).strip() #assuming MRN is 23 bytes long
return {"NPI":NPI,"PCN":PCN, "seqNo":seqNo, "MRN":MRN}
如果文件不是ASCII格式的,那就需要多花点功夫来正确处理编码,以便读取字符而不是字节。
你可以看看 pyparsing 这个网站。