用于跟踪数据处理步骤的python包
cmdline-provenance的Python项目详细描述
命令行来源
cmdline_provenance
是一个python包,用于跟踪数据处理步骤。
它的灵感来自流行的NCO 以及CDO命令行工具, 自动生成在命令行执行的内容的记录, 将该记录附加到输入(netcdf)数据文件的history属性中, 然后将新的扩展记录设置为输出(netcdf)数据文件的history属性。
例如,从雨量数据文件中选择2001-2005时间段后
然后删除long_name
文件属性,
命令日志如下所示:
Fri Dec 08 10:05:47 2017: ncatted -O -a long_name,pr,d,, rainfall_data_200101-200512.nc
Fri Dec 01 07:59:16 2017: cdo seldate,2001-01-01,2005-12-31 rainfall_data_185001-200512.nc rainfall_data_200101-200512.nc
遵循这种简单的数据来源方法, 可以保留所有数据处理步骤的记录 从最初下载/创建数据文件到最终结果(例如.png图像)。
cmdline_provenance
包含一系列用于以nco/cdo格式生成历史记录的函数,
以及用于将当前记录与以前的记录合并以维护完整的命令日志。
文档
http://cmdline-provenance.readthedocs.io/en/latest/
安装
pip install cmdline-provenance