从数据框中保留具有最新日期的数据

software_id software_name installed_date software_version 8331 Intel(R) Graphics Media Accelerator Driver 2009-05-23 0:00 8.15.10.2008 8331 Intel(R) Graphics Media Accelerator Driver 2010-09-15 0:00 8.15.10.2008 8331 Intel(R) Graphics Media Accelerator Driver 2009-12-27 0:00 8.15.10.2008 8332 Wireless Switch Utility 2009-12-22 0:00 4.3.1400.0 8332 Wireless Switch Utility 2010-11-22 0:00 4.3.1400.0 8332 Wireless Switch Utility 2011-01-25 0:00 4.3.1400.0

software_id software_name installed_date software_version 8331 Intel(R) Graphics Media Accelerator Driver 2010-09-15 0:00 8.15.10.2008 8332 Wireless Switch Utility 2011-01-25 0:00 4.3.1400.0

2条回答

网友

1楼 · 编辑于 2024-04-19 21:57:19

您可以执行groupby，如下所示：

df.groupby("software_id", as_index=False)["software_name", "installed_date", "software_version"].max("installed_date")

它按software_id对行进行分组，保留所有需要的列，并为每个组保留具有最高installed_date的行

df是包含文件内容的数据帧

网友

2楼 · 编辑于 2024-04-19 21:57:19

首先，需要将installed_date列转换为datetime：

df['installed_date'] = pd.to_datetime(df['installed_date'])

然后，您可以使用以下选项之一：

选项1:sort在installed_date上的值，然后drop_duplicates只保留每个software_id的最后一行

df.sort_values('installed_date').drop_duplicates('software_id', keep='last')

选项2:group使用softaware_id上的数据帧，并使用idxmax进行聚合，以获得每个software_id组的最新日期索引，然后使用loc和此索引筛选所需行：

idx = df.groupby('software_id')['installed_date'].idxmax()
df.loc[idx]

结果：

   software_id                               software_name installed_date software_version
1         8331  Intel(R) Graphics Media Accelerator Driver     2010-09-15     8.15.10.2008
5         8332                     Wireless Switch Utility     2011-01-25       4.3.1400.0

相关问题更多 >

编程相关推荐

热门问题

热门文章