将指定列的行合并到一个单元格（一个元组）中

*id*, *status*, *date*, *Type* 2 dissolved 2016/03/19 T1 nan active NaT nan 3 dissolved 2016/03/19, T3 nan active 2012/03/16 nan 4 in liquidation, 2017/03/19 T2 nan dissolved, NaT nan

*id*, *status*, *date*, *Type* 2 [dissolved,active] [2016/03/19,None] T1

df = pd.DataFrame([[2,"dissolved","2016/03/19","T1" ], [float("nan"),"active","NaT",float("nan")], [3,"dissolved","2016/03/19","T3" ], [float("nan"),"active","2012/03/16",float("nan")], [4,"in liquidation","2017/03/19","T2" ], [float("nan"),"dissolved","NaT",float("nan")]],columns = ["id","status","date","Type"])

1条回答

网友

1楼 · 发布于 2024-05-21 05:12:07

请尝试以下操作：

df = pd.DataFrame([[2,"dissolved","2016/03/19","T1" ],
            [float("nan"),"active","NaT",float("nan")],
            [3,"dissolved","2016/03/19","T3" ],
            [float("nan"),"active","2012/03/16",float("nan")],
            [4,"in liquidation","2017/03/19","T2" ],
            [float("nan"),"dissolved","NaT",float("nan")]],columns = ["id","status","date","Type"])
df = df.ffill()
df["status"] = df["status"]  + ","
df["date"] = df["date"]  + ","
df2 = df.groupby(["id","Type"]).sum()
df2["status"] = df2["status"].apply(lambda x: x.split(",")[0:len(x.split(","))-1])
df2["date"] = df2["date"].apply(lambda x: x.split(",")[0:len(x.split(","))-1])
df2

根据您的数据集，您可能需要对其进行一些调整。它的输出如下：

          status                        date
id  Type        
2.0 T1   [dissolved, active]           [2016/03/19, NaT]
3.0 T3   [dissolved, active]           [2016/03/19, 2012/03/16]
4.0 T2   [in liquidation, dissolved]   [2017/03/19, NaT]

相关问题更多 >

编程相关推荐

热门问题

热门文章