我有一个数据帧,看起来像:
patient_id note_id lines
A 10 1
A 10 2
A 10 3
A 29 1
A 29 2
B 12 1
B 95 1
B 95 2
B 95 3
C......
D......
E 14 1
E 55 1
E 87 1
......
每个患者可以有多个笔记,每个笔记可能包含一行以上的内容。假设我有20个病人,50张纸条,150行。我如何才能为随机选择的3名患者随机选择一张便笺?假设我希望每个随机选择的患者id有一张随机便条,我会得到:
patient_id note_id lines
A 29 1
A 29 2
B 12 1
E 55 1
我建议创建一个没有lines列的临时数据集。然后
.drop_duplicates()
得到每个音符一行。然后调用.sample()
来选择你的随机子集,然后.merge()
将样本重新加入到病人id和便笺id的原始数据集中。可能有一种更快的方法,因为我不是熊猫专家相关问题 更多 >
编程相关推荐