管理和自动化数据科学项目的数据集。
dataset-manager的Python项目详细描述
数据集管理器
使用yaml文件管理和自动化项目的数据集。
工作原理
此项目在数据集目录中创建一个名为identifier.yaml的文件,其中包含以下字段:
source: https://raw.githubusercontent.com/pcsanwald/kaggle-titanic/master/train.csv
description: this dataset is a test dataset
identifier:是数据集引用的标识符是扩展名为yaml的文件名。
source:来自数据集的位置。
description:描述数据集以便以后记住。
每个数据集都是数据集目录中的一个yaml文件。
安装
只有pip:
pip install dataset_manager
有条件时:
conda install dataset_manager
使用
您可以使用命令列表管理数据集,并与Pandas或其他数据分析工具集成。
经理职能
显示所有数据集
返回包含数据集路径中所有数据集的表
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
manager.show_datasets()
创建数据集
创建一个数据集,其中定义了数据集路径内所需的所有信息。
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
manager.create_dataset(identifier, source, description, **kwargs)
删除数据集
从数据集路径中删除数据集
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
manager.remove_dataset(identifier)
准备数据集
下载并解压缩所有数据集
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
manager.prepare_datasets()
使用多个文件系统
此管理器与Pyfilesystem2集成,您可以使用所有builtin文件系统,也可以使用third-party扩展名或creating your own扩展名。
使用pyfilesystem2,您可以在任何地方下载、提取和管理数据集。
from fs.tempfs import TempFS
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download, TempFS())
manager.prepare_datasets() # all datasets will be downloaded and extracted on temporary files respecting your local_path_to_download hierarchy
获取一个数据集
获取数据集行作为dict
import pandas as pd
from dataset_manager import DatasetManager
manager = DatasetManager(dataset_path, local_path_to_download)
dataset = manager.get_dataset(identifier)
df = pd.read_csv(dataset.uri)
数据集函数
下载数据集
基于源下载数据集。这只下载一次,因为验证缓存。 它同时适用于http、https和ftp协议。
dataset = manager.get_dataset(identifier)
dataset.download()
解压缩数据集
基于数据集uri解压缩数据集。它可以处理zip文件和来自支持库的其他文件:fs.archive
dataset = manager.get_dataset(identifier)
dataset.unzip()
准备数据集
准备数据集之前合并这两个。
dataset = manager.get_dataset(identifier)
dataset.prepare()
贡献
你只要提出请求就好了!
让我们一起成长;)