如何在数据帧系列中包含有关组的丢弃信息？

import pandas as pd data = [['A-1', 'Birth','0'], ['A-1','Sickle cell',"5"],['A-1', 'Lung cancer',"25"], ['A-1','Death','35'],['A-2', 'Birth', '0'], ['A-2','Sarcoma','10'],['A-2', 'Melanoma','19'], ['A-2', 'Current Age', '20'], ['A-3', 'Birth',"0"], ['A-3','Sickle cell','25'],['A-3', "Skin cancer", "29"], ['A-3', "Current Age", '40']] df = pd.DataFrame(data,columns=["Individual ID", "Diagnosis","Age"]) print df

first = pd.DataFrame(df.groupby("Individual ID").filter(lambda g: g["Individual ID"].size > 3)) breast1 = ((first["Repeat Instance"] == 1) & (first["Diagnosis"] != "Sickle cell")) after = first[breast1] print after

2条回答

网友

1楼 · 编辑于 2024-05-14 09:33:14

以下方法如何：

您可以创建一个附加列，其计数如下所示：

df['size'] = df.groupby("Individual ID")["Individual ID"].transform('size')

在此之后，您可以创建一个变量来存储数据帧子集所需的条件：

cond = (df['size'] > 3) & (df['Diagnosis']!="Sickle cell")

subset = df[cond].copy()

网友

2楼 · 编辑于 2024-05-14 09:33:14

我用Python的方式回答

df = pd.DataFrame(data,columns=["Individual ID", "Diagnosis","Age"])
search = '0'
a = list(filter(lambda x:x[2]==search,data))
print (a)

它返回第三个元素为0的列表，您可以自定义它

相关问题更多 >

编程相关推荐

热门问题

热门文章