我的数据集是运动员数据集,其中一列是AthleteName
。共有38项观察,但有些运动员不止一次参加,因此总共有31名运动员。
我想提取一个包含31个观察结果的“随机”样本,其中所有的观察结果只出现一次,对于出现时间较长的观察结果,随机选取一个
我试过这样做,但它给了我一个错误:
sample_fem = pd.DataFrame
total = 0
while total <= 31:
sample = female_dec.sample(n=1, replace=False)
sample = sample.reset_index()
if sample["AthleteName"][0] not in sample_fem["AthleteName"]:
sample_fem.append(sample)
total +=1
File "<ipython-input-561-249bb5b47652>", line 6, in <module>
if sample["AthleteName"][0] not in sample_fem["AthleteName"]:
TypeError: 'type' object is not subscriptable
听起来你想要的“随机样本”是:
为此,首先我们构建一个数据帧,并指出一个记录是否出现了多次
接下来,根据我们创建的flag变量,我们将其分为“uniques”和“dups”
因此,在对
dups
数据帧使用drop_duplicates
之前,只需为索引定义一个随机顺序。然后,我们可以把结果结合起来相关问题 更多 >
编程相关推荐