擅长:python、mysql、java
<p>正如您所说的,regex对于这个问题来说太过了。在</p>
<p>最后两个项目之前的<code>text.split()</code>和<code>join</code>更适合于此。在</p>
<pre><code>lines = [ "REVENUE 9,000,000 900,000",
"COST OF SALES 900,000 900,000",
"GROSS PROFIT (90%; 2016 - 90%) 900,000 900,000" ]
out = []
for line in lines:
parts = line.split()
if len(parts) < 3:
raise InputError
if len(parts) == 3:
out.append(parts)
else:
out.append([' '.join(parts[0:len(parts)-2]), parts[-2], parts[-1]])
</code></pre>
<p><code>out</code>将包含</p>
^{pr2}$
<p>如果标签文本需要进一步提取,您可以使用regex,或者您可以简单地查看<code>parts[0:len(parts)-2]</code>中的项并根据其中的单词和数字进行处理。在</p>