一种基于gpu的亚硫酸氢盐威胁读取映射工具
GPU-BSM的Python项目详细描述
GPU-BSM
GPU-BSM(代表GPU亚硫酸氢盐读取映射)是一个基于GPU的工具,用于映射亚硫酸氢盐处理的读取。它被设计为支持从wgb和rrbs生成的定向和非定向库。 基本上,GPU-BSM采用无偏策略,降低了涉及胞嘧啶到胸腺嘧啶的复杂序列的复杂度。然后,使用soap3 dp短读映射工具将用简化的3字母核苷酸字母表表示的序列对齐。
映射策略
GPU-BSM从原始正向基因组链创建两个序列。第一个序列是通过将胞嘧啶转化为胸腺嘧啶获得的,而第二个序列是通过将鸟嘌呤转化为腺嘌呤获得的。 至于rrbs文库,这些序列是通过分析一个简化的参考基因组生成的,该参考基因组只考虑那些与测序实验兼容的基因组片段。 定向库和非定向库的处理方式不同。
为了映射来自定向库的读取,GPU-BSM使用SOAP3DP执行两个不同的映射。第一个映射是通过在读操作中将细胞素转换为胸腺嘧啶,然后将它们与第一个序列对齐获得的;第二个映射是通过在读操作的反向补体中将鸟嘌呤转换为腺嘌呤,然后将它们与第二个序列对齐获得的。
要映射非定向库中的读取,GPU-BSM执行四种不同的映射。除了为定向库执行的映射外,GPU-BSM还使用SOAP3 DP将胞嘧啶转化为胸腺嘧啶的读操作的逆补体映射到第一序列,将鸟嘌呤转化为腺嘌呤的读操作的逆补体映射到第二序列。
然后,GPU-BSM分析映射读取,检测并删除不明确的读取和那些实际上是误报的读取。我们认为模糊的那些阅读,其中我存在一个最佳匹配至少两个两个/四个对齐根据开发的库或II)存在至少两个最佳点击单次对齐。 GPU-BSM使用4个字母的核苷酸字母表计算映射读取的不匹配数。由于亚硫酸氢钠处理,read中的胸腺嘧啶可以与参考序列中的胞嘧啶对齐。类似地,read的反补体中的鸟嘌呤可以与参考序列中的腺嘌呤对齐。
支持的GPU
GPU-BSM在支持CUDA的GPU卡上工作。它已经在两个Nvidia GPU卡系列上进行了测试:基于Nvidia Fermi架构的GTX 480卡,以及基于Nvidia Kepler架构的K10和K20C卡。
多个GPU
GPU-BSM自动检测计算机中安装的GPU数量,并并行运行定向(非定向)库的两(4)种不同对齐方式。对于配备单个GPU卡的机器,GPU-BSM依次执行不同的对齐。
依赖关系
GPU-BSM在基于Linux的系统上工作,可自定义安装python(release>;=2.7.3),并配备一个支持CUDA的带CC 2.0的GPU卡。此外,GPU-BSM要求安装SOAP3 DP。 目前,soap3 dp也可用于最新版本的cuda 5.5。
安装
安装CUDA
要安装cuda,请参阅http://docs.nvidia.com/cuda/cuda-getting-started-guide-for-linux/上的安装说明。
安装SOAP3 DP
soap3 dp可以在以下地址下载http://www.cs.hku.hk/2bwt-tools/soap3-dp/。
运行以下命令提取不同的程序:
% gunzip soap3-dp-<<release>>.tar.gz
% tar -xvf soap3-dp-<<release>>.tar.gz
GPU-BSM已经用SOAP3 DP REL进行了测试。2.3.172
安装GPU-BSM
要安装GPU-BSM,请运行以下命令
% sudo easy_install GPU-BSM
合成库
同步用于测试gpu-bsm的echy库可以从ftp://fileshare.itb.cnr.it/GPUBSM/下载。
更改日志
2014年10月20日:修复了错误