按时间间隔分组消息

2 投票

2 回答

2321 浏览

提问于 2025-04-17 10:02

我现在正在尝试将每秒发送的消息进行分组。为了计算时间延迟，我使用了以下代码：

def time_deltas(infile): 
entries = (line.split() for line in open(INFILE, "r")) 
ts = {}
for e in entries: 
    if " ".join(e[2:5]) == "T out: [O]": 
        ts[e[8]] = e[0]    
    elif " ".join(e[2:5]) == "T in: [A]":    
        in_ts, ref_id = e[0], e[7] 
        out_ts = ts.pop(ref_id, None) 
        yield (float(out_ts),ref_id[1:-1],(float(in_ts)*1000 - float(out_ts)*1000))

INFILE = 'C:/Users/klee/Documents/test.txt'
import csv 

with open('test.csv', 'w') as f: 
csv.writer(f).writerows(time_deltas(INFILE))

但是，我想计算每秒发送的“T in: [A]”消息的数量，所以我一直在尝试用以下代码来实现这个目标：

import datetime
import bisect
import collections

data=[ (datetime.datetime(2010, 2, 26, 12, 8, 17), 5594813L), 
  (datetime.datetime(2010, 2, 26, 12, 7, 31), 5594810L), 
  (datetime.datetime(2010, 2, 26, 12, 6, 4) , 5594807L),
]
interval=datetime.timedelta(seconds=50)
start=datetime.datetime(2010, 2, 26, 12, 6, 4)
grid=[start+n*interval for n in range(10)]
bins=collections.defaultdict(list)
for date,num in data:
idx=bisect.bisect(grid,date)
   bins[idx].append(num)
for idx,nums in bins.iteritems():
print('{0} --- {1}'.format(grid[idx],len(nums)))

你可以在这里找到相关内容：Python: 按时间间隔分组结果

（我知道单位可能不太符合我的需求，但我只是想了解大致的思路……）

到目前为止，我的尝试大多没有成功，非常希望能得到一些帮助。

另外，数据的显示格式是：

082438.577652 - T in: [A] accepted. ordID [F25Q6] timestamp [082438.575880] RefNumber [6018786] State [L]

代码优化数据处理编程技巧数据显示时间延迟时间间隔消息统计消息分组

2 个回答

如果你不把网格基于时间区间进行二分法，这样会简单很多。

相反，你可以这样做。把每个时间区间转换成一个单一的数字。

def map_time_to_interval_number( epoch, times )
    for t in times:
        delta= (t - epoch)
        delta_t= delta.days*60*60*24 + delta.seconds + delta.microseconds/1000000.0
        interval = delta_t / 50
        yield interval, t

counts = defaultdict( int )
epoch = min( data ) 
for interval, time in map_time_to_interval_number( epoch, data ):
    counts[interval] += 1

这个区间会是一个整数。0代表第一个50秒的区间，1代表第二个50秒的区间，以此类推。

你可以根据这个区间重建时间戳，因为每个区间宽度是50秒，并且是从起始时间开始的。

回答于 2025-04-17 由 Python大师

分享举报

假设你想把数据按每秒发出的时间分组，我们可以利用你的数据是有序的这个特点，以及 int(out_ts) 这个函数可以把时间戳截断到秒，这样我们就可以用它作为分组的关键。

最简单的分组方法是使用 itertools.groupby：

from itertools import groupby

data = get_time_deltas(INFILE)  
get_key = lambda x: int(x[0])  # function to get group key from data
bins = [(k, list(g)) for k, g in groupby(data, get_key)]

bins 将会是一个包含元组的列表，其中元组的第一个值是关键字（整数，比如 082438），第二个值是一个列表，里面是那些在这一秒内发出的数据（时间戳 = 082438.*）。

使用示例：

# print out the number of messages for each second
for sec, data in bins:
    print('{0} --- {1}'.format(sec, len(data)))

# write (sec, msg_per_sec) out to CSV file
import csv
with open("test.csv", "w") as f:
    csv.writer(f).writerows((s, len(d)) for s, d in bins)

# get average message per second
message_counts = [len(d) for s, d in bins]
avg_msg_per_second = float(sum(message_count)) / len(message_count)

补充说明：在这个例子中，bins 使用了 list，这样数据的顺序就能保持。如果你需要随机访问数据，可以考虑使用 OrderedDict。

需要注意的是，调整这个方法以按秒的倍数分组是相对简单的。例如，如果你想按每分钟（60秒）分组，只需把 get_key 函数改成：

get_key = lambda x: int(x[0] / 60)  # truncate timestamp to the minute

回答于 2025-04-17 由 Python大师

分享举报

按时间间隔分组消息

2 个回答

撰写回答