如何仅返回Pandas中最近的行？

import pandas as pd data = {'application_date' : ["9/11/2020 10:30:31", "9/11/2020 11:07:59", "9/11/2020 11:09:02", "9/14/2020 13:14:31", "9/14/2020 13:15:15"], 'candidate_id' : ["001", "002", "002", "002", "002"] } df = pd.DataFrame(data) df['application_date'] = pd.to_datetime(df['application_date']) df['rank_application'] = df.groupby('candidate_id')['application_date'].rank(method='first')

application_date candidate_id rank_application 0 2020-09-11 10:30:31 001 1.0 1 2020-09-11 11:07:59 002 1.0 2 2020-09-11 11:09:02 002 2.0 3 2020-09-14 13:14:31 002 3.0 4 2020-09-14 13:15:15 002 4.0

3条回答

网友

1楼 · 编辑于 2024-06-13 08:38:57

以下是您需要的：

import pandas as pd

data = {'application_date' : ["9/11/2020 10:30:31", "9/11/2020 11:07:59", "9/11/2020 11:09:02", "9/14/2020 13:14:31", "9/14/2020 13:15:15"],
        'candidate_id' : ["001", "002", "002", "002", "002"]
       }

df = pd.DataFrame(data)

df['application_date'] = pd.to_datetime(df['application_date'], infer_datetime_format=True)

result = df.iloc[df.groupby('candidate_id')['application_date'].agg(pd.Series.idxmax)]

print(result)

结果:

     application_date candidate_id
0 2020-09-11 10:30:31          001
4 2020-09-14 13:15:15          002

.iloc[]获取一系列索引以获得适当的行。可能需要pd.to_datetime语句来强制application_date成为pd.Series.idxmax工作的合适日期时间格式

网友

2楼 · 编辑于 2024-06-13 08:38:57

首先，因为这是时间数据中的排序和选择，所以您应该将列转换为pandate_time，以便在pandas上运行良好

然后，您可以通过df['application_date'].agg(pd.Series.idxmax)选择时间序列中的最大值来选择['application_date']。但是，由于您正在不同的id或等级中查找最新时间，因此需要添加groupby以帮助为每个id提供最大选择

df.groupby('candidate_id')['application_date'].agg(pd.Series.idxmax)

如果您想选择申请日期：您可以通过iloc轻松地为它们编制索引

df.iloc[df.groupby('candidate_id')['application_date'].agg(pd.Series.idxmax)]

网友

3楼 · 编辑于 2024-06-13 08:38:57

我回答这个问题有点晚了。我在寻找类似的东西时偶然发现了这篇文章

这是我在寻找最新唱片时通常做的事情

df['rank_application'] = df.groupby('candidate_id')['application_date'].rank(method='first', ascending=False)
df = df[df.rank_application == 1]

问题中提出的最初方法是我遵循的

相关问题更多 >

编程相关推荐

热门问题

热门文章