Pandas Dataframe到JSON层次结构

Employee_FN Employee_LN Supervisor_FN Supervisor_LN Level 0 Michael Scott None None 0 1 Jim Halpert Michael Scott 1 2 Dwight Schrute Michael Scott 1 3 Stanley Hudson Jim Halpert 2 4 Pam Beasley Jim Halpert 2 5 Ryan Howard Pam Beasley 3 6 Kelly Kapoor Ryan Howard 4 7 Meredith Palmer Ryan Howard 4

j = (df.groupby(['Level','Employee_FN','Employee_LN'], as_index=False) .apply(lambda x: x[['Level','Employee_FN','Employee_LN']].to_dict('r')) .reset_index() .rename(columns={0:'Reports'}) .to_json(orient='records')) print(json.dumps(json.loads(j), indent=2, sort_keys=True))

[ { "Employee_FN": "Michael", "Employee_LN": "Scott", "Level": 0, "Reports": [ { "Employee_FN": "Michael", "Employee_LN": "Scott", "Level": 0 } ] }, { "Employee_FN": "Dwight", "Employee_LN": "Schrute", "Level": 1, "Reports": [ { "Employee_FN": "Dwight", "Employee_LN": "Schrute", "Level": 1 } ] }, { "Employee_FN": "Jim", "Employee_LN": "Halpert", "Level": 1, "Reports": [ { "Employee_FN": "Jim", "Employee_LN": "Halpert", "Level": 1 } ] }, { "Employee_FN": "Pam", "Employee_LN": "Beasley", "Level": 2, "Reports": [ { "Employee_FN": "Pam", "Employee_LN": "Beasley", "Level": 2 } ] }, { "Employee_FN": "Stanley", "Employee_LN": "Hudson", "Level": 2, "Reports": [ { "Employee_FN": "Stanley", "Employee_LN": "Hudson", "Level": 2 } ] }, { "Employee_FN": "Ryan", "Employee_LN": "Howard", "Level": 3, "Reports": [ { "Employee_FN": "Ryan", "Employee_LN": "Howard", "Level": 3 } ] }, { "Employee_FN": "Kelly", "Employee_LN": "Kapoor", "Level": 4, "Reports": [ { "Employee_FN": "Kelly", "Employee_LN": "Kapoor", "Level": 4 } ] }, { "Employee_FN": "Meredith", "Employee_LN": "Palmer", "Level": 4, "Reports": [ { "Employee_FN": "Meredith", "Employee_LN": "Palmer", "Level": 4 } ] } ]

j = (df.groupby(['Level','Supervisor_FN','Supervisor_LN'], as_index=False) .apply(lambda x: x[['Level','Employee_FN','Employee_LN']].to_dict('r')) .reset_index() .rename(columns={0:'Reports'}) .rename(columns={'Supervisor_FN':'Employee_FN'}) .rename(columns={'Supervisor_LN':'Employee_LN'}) .to_json(orient='records')) print(json.dumps(json.loads(j), indent=2, sort_keys=True))

[ { "Employee_FN": "Michael", "Employee_LN": "Scott", "Level": 1, "Reports": [ { "Employee_FN": "Jim", "Employee_LN": "Halpert", "Level": 1 }, { "Employee_FN": "Dwight", "Employee_LN": "Schrute", "Level": 1 } ] }, { "Employee_FN": "Jim", "Employee_LN": "Halpert", "Level": 2, "Reports": [ { "Employee_FN": "Stanley", "Employee_LN": "Hudson", "Level": 2 }, { "Employee_FN": "Pam", "Employee_LN": "Beasley", "Level": 2 } ] }, { "Employee_FN": "Pam", "Employee_LN": "Beasley", "Level": 3, "Reports": [ { "Employee_FN": "Ryan", "Employee_LN": "Howard", "Level": 3 } ] }, { "Employee_FN": "Ryan", "Employee_LN": "Howard", "Level": 4, "Reports": [ { "Employee_FN": "Kelly", "Employee_LN": "Kapoor", "Level": 4 }, { "Employee_FN": "Meredith", "Employee_LN": "Palmer", "Level": 4 } ] } ]

1条回答

网友

1楼 · 发布于 2024-04-25 13:12:52

这种类型的问题并不特别适合Pandas；您所追求的数据结构是递归的，而不是表格式的。在

这里有一个可能的解决方案。在

from operator import itemgetter

employee_key = itemgetter('Employee_FN', 'Employee_LN')
supervisor_key = itemgetter('Supervisor_FN', 'Supervisor_LN')

def subset(dict_, keys):
    return {k: dict_[k] for k in keys}

# store employee references
cache = {}

# iterate over employees sorted by level, so supervisors are cached before reports
for row in df.sort_values('Level').to_dict('records'):

    # look up employee/supervisor references
    employee = cache.setdefault(employee_key(row), subset(row, keys=('Employee_FN', 'Employee_LN', 'Level')))
    supervisor = cache.get(supervisor_key(row), {})

    # link reports to employee
    supervisor.setdefault('Reports', []).append(employee)

# grab only top-level employees
[rec for key, rec in cache.iteritems() if rec['Level'] == 0]

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章