各种生物信息学管道。
cdpipelines的Python项目详细描述
这个储存库保存着各种生物信息学管道。
依赖关系
许多管道依赖项可以使用^{tt1}获得$ 子模块(见下文)。另外,工作的Python环境是 与一些常用的科学python包一起使用。我 建议使用Anaconda python,因为它包括 大部分需要的包裹如果你用的是水蟒,我建议你 为不同的项目创造新的环境除了违约 水蟒套餐,您需要以下(可通过 conda或pip):
- htseq
- 熊猫
- pysam(这是通过conda提供的,但目前它是一个旧的 版本,因此您必须使用pip)获取它
- PYVCF
rpy2
安装rpy2可能很棘手不同版本的R和 rpy2不能很好地协同工作,因此建议将 使用prepare子模块安装R并编译 rpy2针对此安装您可以使用 prepare.download_r并使用 prepare.download_install_rpy2。prepare.download_install_rpy2 将提示您将路径、LDFLAGS和ldu LIBRARY路径设置为 正确安装rpy2。安装rpy2后,需要设置 您的PATH和LD_LIBRARY_PATH对每个bash使用这些命令 要在其中使用此rpy2的会话。我建议你把 每次加载项目的 水蟒环境
子模块
general
general包含在多个管道中使用的方法。部分管线 使用一些相似但不同版本的方法,因此管道 会有他们自己的方法版本。有时它可能 将选项添加到在多个 管道(其中每个管道有稍微不同的版本)和 方法转换成general。
prepare
prepare模块包含下载各种 不同管道所需的软件和参考文件
rnaseq
此管道当前从fastq文件开始,有两个步骤为了 每个步骤的详细信息,以及每个方法的docstring。 第一步是align_and_sort,它(可选)删除 复制、对齐读取并生成覆盖率大人物文件以供使用 使用ucsc基因组浏览器或igv。读取的对齐被输出到 基因组和转录组的坐标。第二步是 get_counts计算读取重叠基因的基因数 与DEXSeq一起使用的差异表达和外显子盒