可复制Jupyter笔记本的蛇形管式流水线管理器
nbpipeline的Python项目详细描述
用于Jupyter笔记本的蛇形管道,产生交互式 管道报告如下:
安装和一般说明
现在仍然是这个软件的早期,所以请记住 它还没有准备好生产。注:为了简单起见,我假设 您正在使用最近安装了git的ubuntu。
pip install nbpipeline
静态SVG图需要graphiz:
sudo apt-get install graphviz libgraphviz-dev graphviz-dev
开发安装
要安装最新的开发版本,您可以使用:
git clone https://github.com/krassowski/nbpipeline cd nbpipeline pip install -r requirements.txt ln -s $(pwd)/nbpipeline/nbpipeline.py ~/bin/nbpipeline
快速启动
使用管道的规则列表创建pipeline.py文件为了 示例:
fromnbpipeline.rulesimportNotebookRuleNotebookRule('Extract protein data',# a nice name for the stepinput={'protein_data_path':'data/raw/data_from_wetlab.xlsx'},output={'output_path':'data/clean/protein_levels.csv'},notebook='analyses/Data_extraction.ipynb',group='Proteomics'# this is optional)NotebookRule('Quality control and PCA on proteins',input={'protein_levels_path':'data/clean/protein_levels.csv'},output={'qc_report_path':'reports/proteins_failing_qc.csv'},notebook='analyses/Exploration_and_quality_control.ipynb',group='Proteomics')
输入和输出变量的键应与 相应笔记本中第一个单元格中的变量,其中 应标记为“参数”。如果你的笔记本 没有标记为“参数”的单元格。
有关更多详细信息,请参见示例 pipeline 和 notebooks 在 examples 目录。
运行管道:
nbpipepline
在任何连续运行中,未更改的笔记本将不会 再跑一次。要禁用此缓存,请使用--disable_cache开关。
生成规则图的交互图,以及 再现性报告添加-i开关:
nbpipepline -i
对于图形可视化,软件默认为google-chrome。 显示,可以使用CLI选项更改
如果您以不同的方式命名定义文件(例如my_rules.py 使用:
nbpipepline --definitions_file my_rules.py
要显示所有命令行选项,请使用:
nbpipepline -h