如何使用pandas从一个数据帧创建测试和训练样本？

3条回答

网友

1楼 · 编辑于 2024-05-14 14:53:50

我只想使用numpy的randn：

In [11]: df = pd.DataFrame(np.random.randn(100, 2))

In [12]: msk = np.random.rand(len(df)) < 0.8

In [13]: train = df[msk]

In [14]: test = df[~msk]

为了证明这一点：

In [15]: len(test)
Out[15]: 21

In [16]: len(train)
Out[16]: 79

网友

2楼 · 编辑于 2024-05-14 14:53:50

scikit learn's ^{}是个不错的选择。

from sklearn.model_selection import train_test_split

train, test = train_test_split(df, test_size=0.2)

网友

3楼 · 编辑于 2024-05-14 14:53:50

熊猫随机抽样也将起作用

train=df.sample(frac=0.8,random_state=200) #random state is a seed value
test=df.drop(train.index)