多重scrna序列数据的vireosnp供体反褶积
vireoSN的Python项目详细描述
vireo:pooled单细胞数据的供体反褶积
vireo:用表达式重建系综原点的变分推理 多重化scrna序列数据中的snp。
vireo这个名字遵循cardelino(克隆反卷积)的主题, 而python包的名称是vireoSNP到pypi上的aviod name confilict。
安装
vireo可通过PyPI获得。要安装,请键入以下命令 行,并添加-U用于升级:
pip install vireoSNP
或者,您可以下载或克隆此存储库并键入 python setup.py install要安装。无论哪种情况,如果您 没有作为根用户或您的python环境的权限。
有关更多说明,请参阅installation手册。
快速使用
以下两个小节是快速使用指南。有关详细信息,请参见 所有参数的完整manual或类型vireo -h。我们还提供demo.sh 用于在此repo中运行测试数据集。
每个细胞的基因分型(前步骤)
在这一步骤中可能存在一些生物信息学的努力,然而,一些现有的 软件可以提供解决方案。通常有两个步骤:- 识别候选snp:known common SNPs/freebayes/cellSNP
- 每个细胞的候选基因型snp:cellSNP/vartrix/bcftools mpileup
请参阅genotyping部分中的更多介绍。
vireosnp python包提供了一组实用程序函数和 可执行命令行 情况:
模式1:没有任何基因型:
vireo -c $CELL_DATA -N $n_donor -o $OUT_DIR
mode 2:所有样本的基因型(指定标记-t:gt、gp或pl)
vireo -c $CELL_DATA -d $DONOR_GT_FILE -o $OUT_DIR
模式3:部分样本的基因型(N不同于 $DONOR_GT_FILE中的样本号
vireo -c $CELL_DATA -d $DONOR_GT_FILE -o $OUT_DIR -N $n_donor
模式4:有基因型但不自信
vireo -c $CELL_DATA -d $DONOR_GT_FILE -o $OUT_DIR --forceLearnGT
在模式3和模式4中,算法将首先运行模式1来估计基因型 捐赠者,并将其与给定的捐赠者基因型匹配(甚至部分匹配)。为了 匹配的样本和单核苷酸多态性,输入的基因型将取代估计的 在第二次运行中作为previor的值。
注意,通过-c的单元格数据($CELL_DATA)可以是以下任意两个 格式:
- 标准VCF文件(压缩或未压缩),按单元格显示变量
- 包含变量信息和稀疏矩阵的vcf的cellsnp输出文件夹 ad和dp
参考值
黄远华,戴维斯麦卡锡和奥利弗斯特格尔。Vireo: Bayesian demultiplexing of pooled single-cell RNA-seq data without genotype reference。 {STR 1 } $ BioXiV<<强>(2019):598748。