大Pandas随机rem样本

2024-04-20 13:12:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我知道DataFrame.sample(),但如何才能做到这一点,同时从数据集中删除样本?(注:AFAIK这与替换取样无关)

例如,这里是我想要实现的目标的本质,但这实际上并不起作用:

len(df) # 1000

df_subset = df.sample(300)
len(df_subset) # 300

df = df.remove(df_subset)
len(df) # 700

Tags: 数据sample目标dataframedflenremove样本
2条回答

熊猫random sample

train=df.sample(frac=0.8,random_state=200)
test=df.drop(train.index)

如果索引是唯一的

df = df.drop(df_subset.index)

示例

df = pd.DataFrame(np.arange(10).reshape(-1, 2))

样本

df_subset = df.sample(2)
df_subset

enter image description here


下降

df.drop(df_subset.index)

enter image description here

相关问题 更多 >