OCR和使用Python提取特定子字符串regex后面的文本

regex = r"(?<=(FORE))[A-Z]+" test_str = 'UNIQUE NUMBER 12345 678910 11 FROM THIS DOCUMENT | . ISSUED ON 2011-04-04 FORENAME GUIDO \\ SURNAME VAN ROSSUM. ' matches = re.finditer(regex, test_str) for matchNum, match in enumerate(matches, start=1): print ("Match {matchNum} was found at {start}-{end}: {match}".format(matchNum = matchNum, start = match.start(), end = match.end(), match = match.group())) for groupNum in range(0, len(match.groups())): groupNum = groupNum + 1 print ("Group {groupNum} found at {start}-{end}: {group}".format(groupNum = groupNum, start = match.start(groupNum), end = match.end(groupNum), group = match.group(groupNum)))

2条回答

网友

1楼 · 编辑于 2024-06-11 18:47:11

这么简单的问题不需要正则表达式

test_str = 'UNIQUE NUMBER 12345 678910 11 FROM THIS DOCUMENT | . ISSUED ON 2011-04-04 FORENAME GUIDO    \\ SURNAME VAN ROSSUM.   '

pos = test_str.find("FORENAME") + len("FORENAME")

print(test_str[pos:])

网友

2楼 · 编辑于 2024-06-11 18:47:11

What I want it to return is:
GUIDO \ SURNAME VAN ROSSUM.

基于上述内容，您可以使用：

import re
test_str = 'UNIQUE NUMBER 12345 678910 11 FROM THIS DOCUMENT | . ISSUED ON 2011-04-04 FORENAME GUIDO    \\ SURNAME VAN ROSSUM.'
result = re.sub(r"^.*FORENAME(.*?)$", r"\1", test_str)
print(result)
#  GUIDO    \ SURNAME VAN ROSSUM.

Demo

相关问题更多 >

编程相关推荐

热门问题

热门文章