加速数据转换

def transform (data): t = defaultdict (lambda: (0, 0, 0) ) for row in data: delta = row [3] - row [2] hours = delta.days * 24 + delta.seconds / 3600 manHours = row [1] * hours for cat in row [0]: t [cat] = (t [cat] [0] + 1, t [cat] [1] + hours, t [cat] [2] + manHours) return {k: (v [0], v [1], v [1] / v [0], v [2], v [2] / v [0] ) for k, v in t.items () }

cats = [_ for _ in range (20) ] for test in range (1000): data = [ (random.sample (cats, random.randint (1, 5) ), random.randint (2, 40), datetime.datetime (2013, 1, 1, 8), datetime.datetime (2013, 1, 1, 9) ) for _ in range (1000) ] transform (data)

[([6, 4, 15], 3, '2013-07-31T17:23:00', '2013-07-31T18:40:00'), ([9, 18, 5], 15, '2013-07-08T17:49:00', '2013-07-08T18:57:00'), ([7, 14, 17, 12, 0], 18, '2013-07-20T08:16:00', '2013-07-20T09:06:00'), ([6, 1], 32, '2013-07-31T07:14:00', '2013-07-31T09:01:00'), ([17, 7], 7, '2013-07-05T06:59:00', '2013-07-05T07:52:00')]

1条回答

网友

1楼 · 发布于 2024-04-23 10:43:27

您可以使用numpy：

from collections import defaultdict
from datetime import datetime

import numpy as np

def transform(data):
    pair_type = np.dtype([('team_size', int), ('duration', 'timedelta64[s]')])
    rec_array = np.core.records.array
    total = np.sum
    mean = np.mean
    one_hour = np.timedelta64(1, 'h')
    tmp = defaultdict(list)
    for categories, team_size, begin, end in data:
        for category in categories:
            tmp[category].append((team_size, end - begin))
    for category, pairs in tmp.items():
        pairs = rec_array(pairs, dtype=pair_type)
        hours = pairs.duration / one_hour
        man_hours = pairs.team_size * hours
        yield category, (
                len(pairs),
                total(hours),
                mean(hours),
                total(man_hours),
                mean(man_hours))

some_data = ...
result = dict(transform(some_data))

我不知道是不是更快了。如果你试一下，请报告结果。你知道吗

而且，我的肚皮也不是很好。如果有人知道如何改进，请告诉我。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章