<p>我想解析一个包含非结构化文本的文本文件。我需要知道地址、出生日期、姓名、性别和身份证</p>
<pre><code>. 55 MORILLO ZONE VIII,
BARANGAY ZONE VIII
(POB.), LUISIANA, LAGROS
F
01/16/1952
ALOMO, TERESITA CABALLES
3412-00000-A1652TCA2
12
. 22 FABRICANTE ST. ZONE
VIII LUISIANA LAGROS,
BARANGAY ZONE VIII
(POB.), LUISIANA, LAGROS
M
10/14/1967
AMURAO, CALIXTO MANALO13
</code></pre>
<p>在上面的例子中,前3行是地址,只有一个“F”的行是性别,DOB是“F”后面的行,DOB后面的名称,名称后面的ID,ID下面的12号是索引/记录号</p>
<p>但是,格式不一致。在第二组中,地址是4行,而不是3行,并且索引/记录号附加在名称之后(如果此人没有ID字段)。</p>
<p>我想把课文改写成以下格式:</p>
<pre><code>name, ID, address, sex, DOB
</code></pre>