一致地将数据集划分为训练集和测试集

data-partitioner的Python项目详细描述


数据分区器

可用于一致划分数据集的简单项目 分成两部分-一个测试集和一个训练集。还有一些有用的 方法,该方法提供了一种将元素分成更多组的方法。

安装

安装此模块的最简单方法是通过pip

$ pip install data_partitioner

用法

使用这个模块非常简单。主模块(DatasetSuplier) 提供两个返回训练集(training_set())或 测试集(test_set())。这两种方法都是一致的,所以 不管你在同一个对象上调用它们多少次,它们都会 返回相同的元素集。

您可以指定两个配置选项:

  • training_percent-用于 训练集。它默认为0.8
  • partitioning_function-用于划分 数据集。
  • 它默认为data_partitioner.pseudorandom_function,这将 将数据集的每个元素随机分配给任意一个测试集 或者训练场。
  • 另一个有用的现有选项,您可以将其设置为 data_partitioner.LinearFakeRandomFunction,这将确保 训练集中的任何元素都不在 测试集。
  • 您也可以手动编写这个可调用的,这需要一个 参数作为输入-当前考虑的元素的索引。

示例

from data_partitioner import DatasetSuplier

dataset = [
    ('Alice', 10, 23, 401),
    ('Bob', 20, 40, 812),
    ('Christine', 41, 92, 533),
    ('Dave', 843, 12, -5),
    ('Elizabeth', 682, 33, -7),
    ('Fred', 95, 642, 34),
]
suplier = DatasetSuplier(dataset)

for iteration in range(100):
    for element in suplier.training_set():
        do_train(element[1])
for element in suplier.test_set():
    do_evaluate(element[1])

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何修复:线程“main”java中的异常。java中随机数布尔数组的lang.ArrayIndexOutOfBoundsException   如何在Java中向字符串数组添加字符串?   java扫描器useDelimiter字符串参数?   java如何读取包含子类实例的对象的可包裹对象数组?   java Checkstyle RegexpHeader未正确检测正则表达式   比较Java中的两个XML树   java试图调用虚拟方法“int安卓”。看法看法对空对象引用执行getVisibility()   java错误的解析日期   用于双向I/O的io Java数据对象   gradle执行失败的Twilio SMS(Java)   java代码抛出严重错误:没有为参数1异常指定值   安卓 java。调用getDrawable()时lang.OutOfMemoryError   java如何将可滚动的JPanel保存为jpeg图像(而不是快照)   java bufferedReader现在需要10多秒才能完成(Kotlin)   java在线读取文本文件中的数字   关于访问说明符的java   在java中的incrementAndGet()实现中,原子将`getIntVolatile(Object var1,long var2)`替换为`getInt(Object var1,long var2)`