简单、基于文件的数据版本控制
danvers的Python项目详细描述
danvers:简单的基于文件的数据版本控制
Danvers是一个Python数据版本管理工具,它可以帮助您 维护和引用当前和以前版本的数据文件。在
这意味着您可以确保代码和模型在引用时一致运行 可能会更改的数据集,并且您可以确保保留旧的数据副本 作为决策的一部分使用的文件,因此可以重新运行逻辑和代码。在
只有当新文件与以前的文件不同时,才会创建新版本 版本。这使得不经常更新的数据集易于维护 如果是新的,丹佛斯会保留一份副本,如果它没有改变, 它将忽略并保留其当前版本。在
特点
丹佛很简单,而不是功能丰富,但这里有一些东西 它可以做到:
- 访问数据文件的早期版本
- 保持所有版本的固定数量
- 有不同的修剪策略(先进先出, 上次使用的先出)
- 针对所有已知版本自动检查数据文件的重复性
依赖关系
Danvers没有依赖关系,这正是Python的特性。在
示例用法
from danvers import Danvers
# instantiate with the location the data is stored
vers = Danvers(r'data')
# create the dataset if it doesn't exist already
if not 'marvel_movies' in vers.read_datasets():
vers.create_dataset('marvel_movies')
# add the first data file, should return verion 1
version = vers.create_data_file('marvel_movies', r'test_data\movies_phase_1.csv')
print(version)
# adding a new data file should return version 2
version = vers.create_data_file('marvel_movies', r'test_data\movies_phase_1+2.csv')
print(version)
# get the filename for the latest version of the data
filename = vers.get_data_file('marvel_movies')
print(filename)
# get the filename for version 1 of the data
filename = vers.get_data_file('marvel_movies', 1)
print(filename)
许可证
- 项目
标签: