管理和自动化数据科学项目的数据集。

dataset-manager的Python项目详细描述


数据集管理器

使用yaml文件管理和自动化项目的数据集。

Build Status

当前支持:Python 3.5Python 3.6Python 3.7Python 3.8

工作原理

此项目在数据集目录中创建一个名为identifier.yaml的文件,其中包含以下字段:

source: https://raw.githubusercontent.com/pcsanwald/kaggle-titanic/master/train.csv

description: this dataset is a test dataset

identifier:是数据集引用的标识符是扩展名为yaml的文件名。

source:来自数据集的位置。

description:描述数据集以便以后记住。

每个数据集都是数据集目录中的一个yaml文件。

安装

只有pip:

pip install dataset_manager

有条件时:

conda install dataset_manager

使用

您可以使用命令列表管理数据集,并与Pandas或其他数据分析工具集成。

经理职能

显示所有数据集

返回包含数据集路径中所有数据集的表

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.show_datasets()

创建数据集

创建一个数据集,其中定义了数据集路径内所需的所有信息。

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.create_dataset(identifier, source, description, **kwargs)

删除数据集

从数据集路径中删除数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.remove_dataset(identifier)

准备数据集

下载并解压缩所有数据集

from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

manager.prepare_datasets()

使用多个文件系统

此管理器与Pyfilesystem2集成,您可以使用所有builtin文件系统,也可以使用third-party扩展名或creating your own扩展名。

使用pyfilesystem2,您可以在任何地方下载、提取和管理数据集。

from fs.tempfs import TempFS
from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download, TempFS())

manager.prepare_datasets() # all datasets will be downloaded and extracted on temporary files respecting your local_path_to_download hierarchy

获取一个数据集

获取数据集行作为dict

import pandas as pd
from dataset_manager import DatasetManager

manager = DatasetManager(dataset_path, local_path_to_download)

dataset = manager.get_dataset(identifier)

df = pd.read_csv(dataset.uri)

数据集函数

下载数据集

基于源下载数据集。这只下载一次,因为验证缓存。 它同时适用于http、https和ftp协议。

dataset = manager.get_dataset(identifier)

dataset.download()

解压缩数据集

基于数据集uri解压缩数据集。它可以处理zip文件和来自支持库的其他文件:fs.archive

dataset = manager.get_dataset(identifier)

dataset.unzip()

准备数据集

准备数据集之前合并这两个。

dataset = manager.get_dataset(identifier)

dataset.prepare()

贡献

你只要提出请求就好了!

让我们一起成长;)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用Spring和JSF向客户端授予临时权限   java除了Array/ArrayList之外,还有其他保存矩阵元素的方法吗   java BeanValidation不适用于单选按钮   通过java程序连接到配置单元数据库时出错   java如何使用maven解决二级依赖关系   JfreeChart/Java中带有图例的数据表   合并数组时发生java运行时错误   安全性如何在JavaEE中保护WebSocket端点?   java有没有一种方法可以使用insert方法为树插入值   java编程“静态”的另一种方式:代码可以吗?   java阅读文本文件时如何跳过3行   %04X在C中的含义以及如何在java中编写   java我如何验证一个方法不是仅在一个测试范围内对模拟调用的?   java如何在mac中使用启动appium desktop 1.6.1。球棒   仅匹配最多10位小数的java正则表达式