检查嵌套字典中的成员资格

Question

这是一个跟之前问题相关的后续提问：

结果我发现自己搞错了，使用了错误的ID字段。

顺便说一下，我这里用的是Python 3.x。

我有一个员工的字典，使用一个字符串“directory_id”作为索引。每个值是一个嵌套的字典，里面包含员工的属性（比如电话号码、姓氏等）。其中一个属性是一个次要ID，叫“internal_id”，另一个是他们的经理，叫“manager_internal_id”。“internal_id”这个字段不是必须的，并不是每个员工都有。

{'6443410501': {'manager_internal_id': '989634', 'givenName': 'Mary', 'phoneNumber': '+65 3434 3434', 'sn': 'Jones', 'internal_id': '434214'}
'8117062158': {'manager_internal_id': '180682', 'givenName': 'John', 'phoneNumber': '+65 3434 3434', 'sn': 'Ashmore', 'internal_id': ''}
'9227629067': {'manager_internal_id': '347394', 'givenName': 'Wright', 'phoneNumber': '+65 3434 3434', 'sn': 'Earl', 'internal_id': '257839'}
'1724696976': {'manager_internal_id': '907239', 'givenName': 'Jane', 'phoneNumber': '+65 3434 3434', 'sn': 'Bronte', 'internal_id': '629067'}

}

（我稍微简化了一下字段，以便更容易阅读，同时也出于隐私和合规的考虑）。

这里的问题是，我们用“directory_id”来索引每个员工，但当我们查找他们的经理时，需要通过“internal_id”来找到经理。

之前，当我们的字典使用“internal_id”作为键时，employee.keys()返回的是一个“internal_id”的列表，我是用这个来检查的。现在，我的if语句的最后一部分不工作了，因为“internal_id”是字典值的一部分，而不是键本身。

def lookup_supervisor(manager_internal_id, employees):
    if manager_internal_id is not None and manager_internal_id != "" and manager_internal_id in employees.keys():
        return (employees[manager_internal_id]['mail'], employees[manager_internal_id]['givenName'], employees[manager_internal_id]['sn'])
    else:
        return ('Supervisor Not Found', 'Supervisor Not Found', 'Supervisor Not Found')

所以第一个问题是，我该如何修正if语句，以检查manager_internal_id是否在字典的internal_id列表中？

我试着把employee.keys()替换成employee.values()，但这没用。而且，我希望能有更高效的方法，不知道有没有办法获取值的子集，特别是所有员工[directory_id]['internal_id']的条目。

希望有一种Pythonic的方式来做到这一点，而不需要使用大量嵌套的for/if循环。

我的第二个问题是，我该如何干净利落地返回所需的员工属性（邮箱、名字、姓氏等）。我的for循环是遍历每个员工，并调用lookup_supervisor。我在这里感觉有点傻，不知道该怎么办。

def tidy_data(employees):
    for directory_id, data in employees.items():
        # We really shouldnt' be passing employees back and forth like this - hmm, classes?
        data['SupervisorEmail'], data['SupervisorFirstName'], data['SupervisorSurname'] = lookup_supervisor(data['manager_internal_id'], employees)

我应该重新设计我的数据结构吗？还是有其他方法？

编辑：我稍微调整了一下代码，见下文：

class Employees:

    def import_gd_dump(self, input_file="test.csv"):
        gd_extract = csv.DictReader(open(input_file), dialect='excel')
        self.employees = {row['directory_id']:row for row in gd_extract}

    def write_gd_formatted(self, output_file="gd_formatted.csv"):
        gd_output_fieldnames = ('internal_id', 'mail', 'givenName', 'sn', 'dbcostcenter', 'directory_id', 'manager_internal_id', 'PHFull', 'PHFull_message', 'SupervisorEmail', 'SupervisorFirstName', 'SupervisorSurname')
        try:
            gd_formatted = csv.DictWriter(open(output_file, 'w', newline=''), fieldnames=gd_output_fieldnames, extrasaction='ignore', dialect='excel')
        except IOError:
            print('Unable to open file, IO error (Is it locked?)')
            sys.exit(1)

        headers = {n:n for n in gd_output_fieldnames}
        gd_formatted.writerow(headers)
        for internal_id, data in self.employees.items():
            gd_formatted.writerow(data)

    def tidy_data(self):
        for directory_id, data in self.employees.items():
            data['PHFull'], data['PHFull_message'] = self.clean_phone_number(data['telephoneNumber'])
            data['SupervisorEmail'], data['SupervisorFirstName'], data['SupervisorSurname'] = self.lookup_supervisor(data['manager_internal_id'])

    def clean_phone_number(self, original_telephone_number):
        standard_format = re.compile(r'^\+(?P<intl_prefix>\d{2})\((?P<area_code>\d)\)(?P<local_first_half>\d{4})-(?P<local_second_half>\d{4})')
        extra_zero = re.compile(r'^\+(?P<intl_prefix>\d{2})\(0(?P<area_code>\d)\)(?P<local_first_half>\d{4})-(?P<local_second_half>\d{4})')
        missing_hyphen = re.compile(r'^\+(?P<intl_prefix>\d{2})\(0(?P<area_code>\d)\)(?P<local_first_half>\d{4})(?P<local_second_half>\d{4})')
        if standard_format.search(original_telephone_number):
            result = standard_format.search(original_telephone_number)
            return '0' + result.group('area_code') + result.group('local_first_half') + result.group('local_second_half'), ''
        elif extra_zero.search(original_telephone_number):
            result = extra_zero.search(original_telephone_number)
            return '0' + result.group('area_code') + result.group('local_first_half') + result.group('local_second_half'), 'Extra zero in area code - ask user to remediate. '
        elif missing_hyphen.search(original_telephone_number):
            result = missing_hyphen.search(original_telephone_number)
            return '0' + result.group('area_code') + result.group('local_first_half') + result.group('local_second_half'), 'Missing hyphen in local component - ask user to remediate. '
        else:
            return '', "Number didn't match format. Original text is: " + original_telephone_number    

    def lookup_supervisor(self, manager_internal_id):
        if manager_internal_id is not None and manager_internal_id != "":# and manager_internal_id in self.employees.values():
            return (employees[manager_internal_id]['mail'], employees[manager_internal_id]['givenName'], employees[manager_internal_id]['sn'])
        else:
            return ('Supervisor Not Found', 'Supervisor Not Found', 'Supervisor Not Found')

if __name__ == '__main__':
    our_employees = Employees()
    our_employees.import_gd_dump('test.csv')
    our_employees.tidy_data()
    our_employees.write_gd_formatted()

我想我在寻找（1）更好的方式来构建/存储员工信息，以及（2）在lookup_supervisor()方面遇到了一些问题。

我应该创建一个员工类，并把这些嵌套在员工集合里面吗？

我是否应该像现在这样使用tidy_data()，并在字典的条目上用for循环调用clean_phone_number()和lookup_supervisor()？唉，真让人困惑。

代码优化数据结构类设计信息检索员工管理数据清理嵌套字典成员资格检查

检查嵌套字典中的成员资格

2 个回答

撰写回答