单细胞rna测序数据的双重预测
scrublet的Python项目详细描述
scrublet
s单个-cellr删除doublets
用于识别单细胞rna序列数据中双链的python代码。有关该方法的详细信息和验证,请参阅Cell Systems中的文章或bioRxiv上的预印本。
快速启动:
有关典型的工作流(包括对预测的双精度分数的解释),请参见示例notebook。
给定一个原始的(未格式化的)umi计数矩阵counts_matrix
,其中细胞作为行,基因作为列,计算每个细胞的双倍分数:
importscrubletasscrscrub=scr.Scrublet(counts_matrix)doublet_scores,predicted_doublets=scrub.scrub_doublets()
scr.scrub_doublets()
模拟观测数据中的双元组,并使用k近邻分类器计算每个转录组的连续doublet_score
(介于0和1之间)。分数会自动设置阈值以生成predicted_doublets
,这是一个布尔数组,对于预测的双元组是True
,否则是False
。
最佳实践:
- 当处理来自多个样本的数据时,分别对每个样本运行scrublet。由于scrublet设计用于检测由两个单元的随机共封装形成的技术双元组,因此在单元类型比例不代表任何单个样本的合并数据集上,它可能执行得很差。
- 检查双峰分数阈值是否合理(在理想情况下,将双峰模拟双峰分数直方图的两个峰值分开,如this example),必要时手动调整。
- 在二维嵌入(如umap或t-sne)中可视化双重预测。预测的二重态应该主要是共同局部化的(可能在多个簇中)。如果没有,您可能需要调整doublet score阈值,或更改预处理参数以更好地解析数据中的单元格状态。
安装:
使用pypi安装:
pip install scrublet
从源安装:
git clone https://github.com/AllonKleinLab/scrublet.git
cd scrublet
pip install -r requirements.txt
pip install --upgrade .
旧版本:
可以找到以前的版本here。
其他双重检测工具:
DoubletFinder
DoubletDecon
DoubletDetection