修复澳大利亚/新西兰电话号码的Python正则表达式

Question

我有一个Python脚本，用来处理包含用户输入的电话号码的CSV文件。因为用户输入的格式可能会很奇怪，所以我们需要把这些号码拆分成不同的部分，并且修正一些常见的输入错误。

我们的电话号码是来自澳大利亚的悉尼或墨尔本，或者新西兰的奥克兰，格式是国际标准的。

标准的悉尼号码看起来是这样的：

+61(2)8328-1972

它有国际区号+61，后面是一个用括号括起来的地区代码2，然后是本地号码的两部分，用连字符分开，像这样8328-1972。

墨尔本的号码只是在地区代码上用3代替2，例如：

+61(3)8328-1972

奥克兰的号码也类似，但它们的本地号码部分是7位（前3位后4位），而不是正常的8位。

+64(9)842-1000

我们还处理了一些常见错误的匹配。我把正则表达式分成了自己的类。

class PhoneNumberFormats():
    """Provides compiled regex objects for different phone number formats. We put these in their own class for performance reasons - there's no point recompiling the same pattern for each Employee"""
    standard_format = re.compile(r'^\+(?P<intl_prefix>\d{2})\((?P<area_code>\d)\)(?P<local_first_half>\d{3,4})-(?P<local_second_half>\d{4})')
    extra_zero = re.compile(r'^\+(?P<intl_prefix>\d{2})\(0(?P<area_code>\d)\)(?P<local_first_half>\d{3,4})-(?P<local_second_half>\d{4})')
    missing_hyphen = re.compile(r'^\+(?P<intl_prefix>\d{2})\(0(?P<area_code>\d)\)(?P<local_first_half>\d{3,4})(?P<local_second_half>\d{4})')
    space_instead_of_hyphen = re.compile(r'^\+(?P<intl_prefix>\d{2})\((?P<area_code>\d)\)(?P<local_first_half>\d{3,4}) (?P<local_second_half>\d{4})')

我们有一个用于标准格式的号码，还有其他一些用于各种常见错误的情况，比如在地区代码前面多加一个零（02而不是2），或者本地号码部分缺少连字符（例如83281972而不是8328-1972）等等。

然后我们通过一系列的if/elif语句来调用这些匹配：

def clean_phone_number(self):
    """Perform some rudimentary checks and corrections, to make sure numbers are in the right format.
    Numbers should be in the form 0XYYYYYYYY, where X is the area code, and Y is the local number."""
    if not self.telephoneNumber:
        self.PHFull = ''
        self.PHFull_message = 'Missing phone number.'
    else:
        if PhoneNumberFormats.standard_format.search(self.telephoneNumber):
            result = PhoneNumberFormats.standard_format.search(self.telephoneNumber)
            self.PHFull = '0' + result.group('area_code') + result.group('local_first_half') + result.group('local_second_half')
            self.PHFull_message = ''
        elif PhoneNumberFormats.extra_zero.search(self.telephoneNumber):
            result = PhoneNumberFormats.extra_zero.search(self.telephoneNumber)
            self.PHFull = '0' + result.group('area_code') + result.group('local_first_half') + result.group('local_second_half')
            self.PHFull_message = 'Extra zero in area code - ask user to remediate.'
        elif PhoneNumberFormats.missing_hyphen.search(self.telephoneNumber):
            result = PhoneNumberFormats.missing_hyphen.search(self.telephoneNumber)
            self.PHFull = '0' + result.group('area_code') + result.group('local_first_half') + result.group('local_second_half')
            self.PHFull_message = 'Missing hyphen in local component - ask user to remediate.'
        elif PhoneNumberFormats.space_instead_of_hyphen.search(self.telephoneNumber):
            result = PhoneNumberFormats.missing_hyphen.search(self.telephoneNumber)
            self.PHFull = '0' + result.group('area_code') + result.group('local_first_half') + result.group('local_second_half')
            self.PHFull_message = 'Space instead of hyphen in local component - ask user to remediate.'
        else:
            self.PHFull = ''
            self.PHFull_message = 'Number didn\'t match recognised format. Original text is: ' + self.telephoneNumber

我的目标是尽量让匹配变得严格，同时至少能捕捉到常见的错误。

不过，我上面做的有几个问题：

我用\d{3,4}来匹配本地号码的前半部分。但理想情况下，我们只想在新西兰号码（即以+64(9)开头）时捕捉到3位数的前半部分。这样，我们就可以标记缺少数字的悉尼/墨尔本号码。我可以把奥克兰号码单独分成一个正则表达式，但这样就无法捕捉到与错误情况（多余的零、缺少连字符、用空格代替连字符）结合的号码。所以，除非我为奥克兰号码重新创建一个版本，比如auckland_extra_zero，但这似乎太重复了，我不知道怎么简单地解决这个问题。
我们没有捕捉到错误组合的情况，比如如果有一个多余的零和一个缺少的连字符，我们就无法识别。这有没有简单的方法用正则表达式来做到这一点，而不需要明确创建不同错误的排列组合？

我想解决上面两个问题，并希望能稍微收紧一下，以捕捉到我遗漏的任何情况。有没有更聪明的方法来实现我上面尝试的目标？

谢谢，
Victor

附加说明：

以下内容只是为了提供一些背景信息：

这个脚本是为一家全球公司设计的，悉尼、墨尔本和奥克兰各有一个办公室。

这些号码来自内部的员工活动目录（也就是说，这不是客户名单，而是我们自己的办公室电话）。

因此，我们并不是在寻找一个通用的澳大利亚电话号码匹配脚本，而是想要一个通用的脚本来解析来自三个特定办公室的号码。一般来说，只有最后四个数字应该不同。

手机号码不是必需的。

这个脚本的目的是解析活动目录的CSV导出，并将号码重新格式化为另一个程序（QuickComm）所需的可接受格式。

这个程序来自外部供应商，需要的号码格式正是我在上面的代码中生成的格式——这就是为什么号码会显示为0283433422。

我写的脚本不能更改记录，只能在它们的CSV导出上工作——记录存储在活动目录中，唯一能访问并修正它们的方法是给员工发邮件，让他们登录并更改自己的记录。

所以这个脚本是由一个助理运行的，以生成这个程序所需的输出。她/他还会得到一份格式不正确的号码的人员名单——因此有关于要求用户修正的消息。理论上，这样的人应该很少。然后我们会给这些员工发邮件或打电话，要求他们修正自己的记录——这个脚本每月运行一次（号码可能会变化），我们还需要标记那些新员工，以防他们输入错误的记录。

@John Macklin：你是建议我放弃正则表达式，直接从字符串中提取特定位置的数字吗？

我在寻找一种方法来捕捉常见错误的组合情况（例如，用空格代替连字符，加上多余的零），但这是否不容易实现？

正则表达式错误处理编程最佳实践数据清洗用户输入验证 CSV文件处理区域代码电话号码格式

修复澳大利亚/新西兰电话号码的Python正则表达式

3 个回答

撰写回答