如何将一个数据集分离为两个以上的随机样本

1条回答

网友

1楼 · 发布于 2024-06-02 08:13:41

您可以使用来自scikit-learn的Kfold来生成所需的索引。如果采用较小的折叠（20%），则您将获得所需的5个数据切片：

from sklearn.model_selection import KFold
import numpy as np

data = range(10)
kf = KFold(n_splits=5, shuffle=True)
for i in kf.split(data):
    print(i[1])

以下是伪随机、非重叠索引，供您选择数据/标签的相关部分

[4 9]
[1 3]
[6 7]
[0 2]
[5 8]

如果您想要分层抽样，那么您必须以类似的方式使用StratifiedKFold

如果您希望将其作为函数，我可能会将其创建为生成器：

def segment_data(data, labels, no_segments=5, shuffle=True):
    kf = KFold(n_splits=no_segments, shuffle=shuffle)
    for _, indices in kf.split(range(data.shape[0])):
        yield data[indices], labels[indices]

my_labels = ["L1", "L2", "L3"]
all_labels = np.random.choice(my_labels, size=100, replace=True, p=(0.1, 0.45, 0.45)
all_data = np.random.uniform(size=100)

for data, labels in segment_data(all_data, all_labels):
    print(data)
    print(labels)

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将一个数据集分离为两个以上的随机样本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >