如何将大数据集划分成n个子集来保持类的比例

2条回答

网友

1楼 · 编辑于 2024-04-26 10:26:39

StratifiedKFold函数可以满足您的需求。它将数据分割成k个分层褶皱。调用_iter_test_masks()或_make_test_folds()

>>> from sklearn.model_selection import StratifiedKFold
>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
>>> y = np.array([0, 0, 1, 1])
>>> skf = StratifiedKFold(n_splits=2, shuffle=True)
>>> for i in skf._iter_test_masks(X, y):
...     print(i)

[ True False False  True]
[False  True  True False]

>>> for i in skf._make_test_folds(X, y):
...     print(i)

1
0
0
1

网友

2楼 · 编辑于 2024-04-26 10:26:39

您可以添加一个new column，它将是一个random number，从0到1，带有np.random.random_sample，然后您可以group by这个class，并对生成的随机数应用pd.cut，就像创建一个新列dataset：

df = pd.DataFrame({'class': np.random.choice(['A', 'B'], 100), 
               'value': np.random.random_sample(100)})
df['dataset'] = pd.DataFrame(df.groupby('class').apply(lambda x: 
pd.cut(x['value'], 10, labels=range(0, 10)))).reset_index(0, drop=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将大数据集划分成n个子集来保持类的比例

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >