单细胞rna序列分析
metacell的Python项目详细描述
元细胞分析
天真地说,核糖核酸序列数据是一组细胞轮廓,其中每一个,每一个基因,我们得到一个计数 在细胞中存在的基因的mrna分子。这是如何 "表达的"或"活性的"基因。
与现实世界中的任何技术一样,原始数据可能会受到技术工件的影响(计算 两个细胞在一个剖面上的分子,计算破裂细胞的分子,仅计算 来自细胞核的分子等)。这需要修剪原始数据以排除 人工产品。待办事项:创建视图应考虑这些问题。
目前的技术scrna seq数据也非常稀少(通常是10%,有时甚至是5% 计算RNA分子)。这在原始信号的基础上引入了较大的采样方差, 它本身就含有明显的生物噪声。
因此,分析短链rna序列数据需要批量处理轮廓。经典的是 通过使用各种方法直接对细胞进行聚类来完成。
相反,元细胞方法将"相同"生物状态的轮廓组合在一起 计算稳健统计(in 特别是平均基因表达)。每个这样的组都是一个"元单元"。
通过将配置文件相加,每个元单元大大减少了采样方差,并提供了 一些转录状态的更稳健估计。特别是,元单元不是单元类型 (多个元单元可能属于同一类型),并且不是单元状态的参数模型。
因此,应使用其他方法对元细胞进行进一步分析,以对细胞类型进行分类, 使用 作为这种分析技术的输入,元单元应该从更健壮、更少噪音中获益 输入;并从要分析的配置文件数量减少(约100倍)。
一个明显的技术是递归地将元细胞分组为更大的组,并研究 生成的群集层次结构。进一步分析数据的方法可以选择建立在 这种现成的层次结构(也由本软件包提供)。