使用Python对字典列表的值进行分组和聚合

3条回答

网友

1楼 · 编辑于 2024-05-31 23:51:08

这里有一种使用^{}的方法，您只需关注如何构造输出。

给定

import datetime
import collections as ct

import more_itertools as mit


dataset = [
    {"date": datetime.date(2013, 1, 1), "id": 99, "value1": 10, "value2": 10},
    {"date": datetime.date(2013, 1, 1), "id": 98, "value1": 10, "value2": 10},
    {"date": datetime.date(2013, 1, 2), "id": 99, "value1": 10, "value2": 10}
]

代码

# Step 1: Build helper functions    
kfunc = lambda d: d["date"]
vfunc = lambda d: {k:v for k, v in d.items() if k.startswith("val")}
rfunc = lambda lst: sum((ct.Counter(d) for d in lst), ct.Counter())

# Step 2: Build a dict    
reduced = mit.map_reduce(dataset, keyfunc=kfunc, valuefunc=vfunc, reducefunc=rfunc)
reduced

输出

defaultdict(None,
            {datetime.date(2013, 1, 1): Counter({'value1': 20, 'value2': 20}),
             datetime.date(2013, 1, 2): Counter({'value1': 10, 'value2': 10})})

项目按日期分组，相关值减少为Counters。

详细信息

步骤

构建helper函数以自定义最终^{}中键、值和减少的值的构造。我们希望：
- 按日期分组（kfunc）
- 生成保留“value*”参数的dict（vfunc）
- 通过转换成^{}和summing them来聚合dict（rfunc）。请参阅下面的等效rfunc。
将helper函数传递给^{}。

简单分组

... say in that example you wanted to group by id and date?

没问题。

>>> kfunc2 = lambda d: (d["date"], d["id"])
>>> mit.map_reduce(dataset, keyfunc=kfunc2, valuefunc=vfunc, reducefunc=rfunc)
defaultdict(None,
            {(datetime.date(2013, 1, 1),
              99): Counter({'value1': 10, 'value2': 10}),
             (datetime.date(2013, 1, 1),
              98): Counter({'value1': 10, 'value2': 10}),
             (datetime.date(2013, 1, 2),
              99): Counter({'value1': 10, 'value2': 10})})

定制输出

虽然得到的数据结构清晰、简洁地显示了结果，但是OP的预期输出可以重建为一个简单的dict列表：

>>> [{**dict(date=k), **v} for k, v in reduced.items()]
[{'date': datetime.date(2013, 1, 1), 'value1': 20, 'value2': 20},
 {'date': datetime.date(2013, 1, 2), 'value1': 10, 'value2': 10}]

有关map_reduce的更多信息，请参见the docs。通过> pip install more_itertools安装。

⁺等效的还原函数：

def rfunc(lst: typing.List[dict]) -> ct.Counter:
    """Return reduced mappings from map-reduce values."""
    c = ct.Counter()
    for d in lst:
        c += ct.Counter(d)
    return c

网友

2楼 · 编辑于 2024-05-31 23:51:08

您可以使用collections.Counter和collections.defaultdict。

使用dict可以在O(N)中完成，而排序需要O(NlogN)时间。

from collections import defaultdict, Counter
def solve(dataset, group_by_key, sum_value_keys):
    dic = defaultdict(Counter)
    for item in dataset:
        key = item[group_by_key]
        vals = {k:item[k] for k in sum_value_keys}
        dic[key].update(vals)
    return dic
... 
>>> d = solve(my_dataset, 'date', ['value1', 'value2'])
>>> d
defaultdict(<class 'collections.Counter'>,
{
 datetime.date(2013, 1, 2): Counter({'value2': 10, 'value1': 10}),
 datetime.date(2013, 1, 1): Counter({'value2': 20, 'value1': 20})
})

Counter的优点是它将自动对相似键的值求和

示例：

>>> c = Counter(**{'value1': 10, 'value2': 5})
>>> c.update({'value1': 7, 'value2': 3})
>>> c
Counter({'value1': 17, 'value2': 8})

网友

3楼 · 编辑于 2024-05-31 23:51:08

谢谢，我忘了柜台。我仍然想维护返回数据集的输出格式和排序，所以下面是我的最终函数：

def group_and_sum_dataset(dataset, group_by_key, sum_value_keys):

    container = defaultdict(Counter)

    for item in dataset:
        key = item[group_by_key]
        values = {k:item[k] for k in sum_value_keys}
        container[key].update(values)

    new_dataset = [
        dict([(group_by_key, item[0])] + item[1].items())
            for item in container.items()
    ]
    new_dataset.sort(key=lambda item: item[group_by_key])

    return new_dataset

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python对字典列表的值进行分组和聚合

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >