Pandas与群居动物合而为一

admit = pd.DataFrame({"HN": ["001", "002", "001", "002"], "dob": ["1999-05-25", "1979-08-12", "1999-05-25", "1979-08-12"], "dateadm": ["2000-11-10", "2012-07-11", "2014-04-02", "2016-03-05"]}) admit["dateadm"] = pd.to_datetime(admit["dateadm"], format="%Y-%m-%d") lab = pd.DataFrame({"HN": ["001", "002", "001", "002", "001"], "labdate":["2000-11-11", "2012-07-13", "2000-11-15", "2016-03-05", "2014-04-02"], "FPG": [100.0, 120.0, 95.5, 125.0, 99.0]}) lab["labdate"] = pd.to_datetime(lab["labdate"], format="%Y-%m-%d") lab = lab.sort_values(by="labdate").reset_index(drop=True)

HN dob dateadm labdate FPG 001 1999-05-25 2000-11-10 2000-11-11 100.0 002 1979-08-12 2012-07-11 2012-07-13 120.0 001 1999-05-25 2014-04-02 2014-04-02 99.0 002 1979-08-12 2016-03-05 2016-03-05 125.0

HN dob dateadm labdate FPG 001 1999-05-25 2000-11-10 2000-11-11 97.75 002 1979-08-12 2012-07-11 2012-07-13 120.0 001 1999-05-25 2014-04-02 2014-04-02 99.0 002 1979-08-12 2016-03-05 2016-03-05 125.0

1条回答

网友

1楼 · 发布于 2024-06-11 16:29:15

最后，我找到了问题的解决方案，只需交换左右表，然后按如下方式分组

data = pd.merge_asof(lab, admit, left_on="labdate", right_on="dateadm", by="HN", direction="backward").groupby(["HN", "dob", "dateadm"]).agg({"FPG": "mean"}).reset_index()

因为一个dateadm可以有多个labdate，但是我想要的数据粒度是HN和dateadm。因此，我可以忽略所需输出中的labdate

相关问题更多 >

编程相关推荐

热门问题

热门文章