实用数据集管理
sefara的Python项目详细描述
sefara是一个用于管理数据集的python库。它提供了一种方法来指定数据集是什么(通常是文件系统路径)和任何元数据(例如它们来自哪个实验),然后在分析脚本和笔记本中方便地引用它们。
sefara不会假设数据集是什么,它们是什么格式,或者是如何访问它们的。
快速示例
通过创建这样的文件来定义一个“资源集合”,我们称之为datasets.sefara.py:
from sefara import export export( "my_first_dataset.hdf5", path="/path/to/file1.hdf5", tags=["first", "important"], ) export( "my_second_dataset.csv", path="/path/to/file2.csv", tags=["second", "unimportant"], )
然后,使用sefara在python中打开它:
>>> import sefara >>> datasets = sefara.load("datasets.sefara.py") >>> print(datasets.filter("tags.important")[0].path) /path/to/file1.hdf5
安装
pip install sefara
运行测试:
nosetests
构建文档:
pip install -e . pip install Sphinx cd docs make clean setup rst html
文档将写入_build/html目录。