自动DNA微卫星基因分型。
ScaleHDALSPAC的Python项目详细描述
啊!!你可能不想使用这个版本的scalehd,除非你知道自己在做什么。改用香草味的。!!
scalehd-alspac是亨廷顿病数据中微卫星重复序列基因分型过程自动化的软件包。 我们使用机器学习方法来考虑自然数据“人工制品”,如PCR滑动和体细胞 马赛克主义,在处理数据时。这为最终用户提供了一个简单易用的平台,可以从输入数据中可靠地预测基因型。
默认情况下,每个样本的输入是一对未对齐的.fastq序列数据,包括正向和反向读取。我们使用正向和反向 为了减少亨廷顿病多重重复序列遗传结构带来的复杂维数问题。允许反向读取 我们要确定当前样本的ccg状态——这为我们提供了一种更容易调用整个基因型的机制。正向读取 在类似的方法中使用,以确定CAG和干预结构。
本申请的概述如下: 1)如果存在大量读取,则输入fastq文件将被子采样。这可以用-b标志推翻。 2)按用户要求进行工序质量控制。我们建议修剪任何5-质数间隔物+底漆组合,以实现最佳对齐。 3)将这些文件与典型的hd结构(cag_1_1_1_ccg_2)参考进行对齐。 4)用数字信号处理对组件进行扫描,以检测任何可能的非典型结构(例如cag_u 1_u ccg_u 3)。 4.1)如果没有检测到非典型等位基因,继续正常进行。 4.2)如果检测到非典型等位基因,则生成自定义参考,并对此进行重新比对。 5)利用适当的等位基因信息和序列组合,对样本进行基因分型。 6)为当前样本写入输出;为队列中的下一个样本(如果存在)重复该过程。
查看http://scalehd.rtfd.io上的完整文档