从分组对象中选择给定范围内的行

+------------+---------------------+---------+ | action | ts | uid | +------------+---------------------+---------+ | action1 | 2013-01-01 00:00:00 | 543534 | | action2 | 2013-01-01 00:00:00 | 543544 | | action1 | 2013-01-01 00:00:02 | 543542 | | action2 | 2013-01-01 00:00:03 | 543541 | | .... | .... | ... | +------------+---------------------+---------+

df = ... start_date = ... end_date = ... result = {} grouped = df.groupby('uid') grouped_dict = dict(list(grouped)) for item in grouped.keys: df = grouped[item] result[item] = df[df.ts > start_date and df.ts < end_date].size()

2条回答

网友

1楼 · 编辑于 2024-04-25 00:13:24

您可以按uid和action分组：

start_date = pd.to_datetime('2013-01-01 00:00:00')
end_date = pd.to_datetime('2013-01-01 00:00:07')
print df
print df[(df.ts > start_date) & (df.ts < end_date)].groupby(['uid','action'])['ts'].count().unstack('action').fillna(0)

输出：

    action                  ts  uid
0  action1 2013-01-01 00:00:00    1
1  action2 2013-01-01 00:00:00    2
2  action1 2013-01-01 00:00:02    2
3  action2 2013-01-01 00:00:03    1
4  action2 2013-01-01 00:00:04    2
5  action2 2013-01-01 00:00:05    1
6  action1 2013-01-01 00:00:06    1
action  action1  action2
uid                     
1             1        2
2             1        1

网友

2楼 · 编辑于 2024-04-25 00:13:24

查看pandas.DataFrame的接口，我会选择如下数据：

# Select the interesting date range
bydate = df[(df['ts'] > start_date & df.ts < end_date]
# Now this will group for uid, *then* by action
grouped = bydate.groupby(('uid', 'action'))

现在，让我们只打印每个uid的操作数：

for indices, data in grouped:
    print("Uid {}, Action '{}': {}".format(indices[0], indices[1], len(data))

相关问题更多 >

编程相关推荐

热门问题

热门文章