试图将我的数据分成代表性的训练和测试

trainTotal = 455 benTotal = 296 malTotal = 455-296 b = 0 m = 0 tr = 0 i = 0 j = 0 for index, row in data.iterrows(): if row['Class'] == 2: if tr < trainTotal and b < benTotal: train.loc[i] = data.iloc[index] b = b+1 tr = tr + 1 i = i+1 else: test.loc[j] = data.iloc[index] j = j+1 if row['Class'] == 4: if tr < trainTotal and m < malTotal: train.loc[i] = data.iloc[index] tr = tr + 1 i = i + 1 m = m+1 else: test.loc[j] = data.iloc[index] j = j + 1

1条回答

网友

1楼 · 发布于 2024-06-16 11:17:27

正如Michael Gardner所说，train_test_split是您正在寻找的函数

默认情况下，它将随机拆分，但您可以使用stratify告诉它您希望在训练和测试数据集中的类列具有相同的比率

它的工作原理如下：

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    data,
    target,
    test_size = 0.3,
    stratify=data[['your_column']]
)

编程相关推荐

netbeans根据命名约定返回布尔类的getter的Java名称
java如何在MessageFormat中使用单引号
java如何在整数数组中只对奇数排序，而将偶数保留在其原始位置？
自定义ArrayAdapter中未定义java构造函数
java joda时间格式化程序解析yyyyymmdd（额外一小时）
java Spring引导控制器测试始终返回404
java如何提取类文件以获取该类文件中的类？
JTable java列不会显示
java Selenium Web驱动程序输出错误的Web表行数
当应用程序在mac上打开时，java SWT选项卡项会从页面上消失

相关问题更多 >

编程相关推荐

热门问题

热门文章