一种分析用tet辅助吡啶硼烷测序(taps)或其他改良的胞嘧啶-胸腺嘧啶转换方法(mctot)生成的无亚硫酸氢盐和碱基分辨率测序数据的工具。它还具有亚硫酸氢盐测序数据(未经修改的胞嘧啶到胸腺嘧啶转换方法,CTOT)的一些特点。

asTair的Python项目详细描述


astair是处理dna修饰测序数据的工具链。astair主要用于处理tet辅助吡啶硼烷(taps)测序输出,但也包含对亚硫酸氢盐测序(bs)数据有用的功能。

构建状态

基本用法

<H2>0。安装

通过pip安装是获得astair的最简单方法,它在python2和3中工作:

pip install astair

现在您应该可以调用airastair

astair --help
Usage: astair [OPTIONS] COMMAND [ARGS]...

  asTair (tools for processing cytosine modification sequencing data)

Options:
  --help  Show this message and exit.

Commands:
  align     Align raw reads in fastq format to a reference genome.
  call      Call modified cytosines from a bam or cram file.
  filter    Look for sequencing reads with more than N CpH modifications.
  find      Output positions of Cs from fasta file per context.
  mbias     Generate modification per read length information (Mbias).
  phred     Calculate per base (A, C, T, G) Phred scores for each strand.
  simulate  Simulate TAPS/BS conversion on top of an existing bam/cram file.

  __________________________________About__________________________________
  asTair was written by Gergana V. Velikova and Benjamin Schuster-Boeckler.
  This code is made available under the GNU General Public License, see
  LICENSE.txt for more details.
                                                           Version: 3.x.x

一般来说,您可以使用--helpon allastair子命令获取有关可用选项的详细说明。

(如果出于某种原因,pip不是一个选项,请查看我们的常见问题解答以了解安装astair的更多方法)

本教程主要部分中的所有示例都基于这样的假设,即输入的排序数据是抽头对端排序读取,但是,可以在单端模式下运行空气分析(--se)。此外,astair还允许您对wgbs数据运行分析,这需要为对齐步骤运行安装bwa meth。有关wgbs分析的更多信息,您可以查看wgbs数据或其他未经修改的胞嘧啶到胸腺嘧啶转换方法的标记头分析部分,rel="nofollow">wgbs数据的分析(或其他未经修改的胞嘧啶到胸腺嘧啶转换方法)

<H2>1。对齐读数

我们假设您已经生成了成对的末端排序数据,它存储在两个fastq文件中。对于这个简短的教程,我们假设文件名为lambda.phage_test_sample_r1.fq.gzlambda.phage_test_sample_r2.fq.gz。如果您想学习本教程,可以在此处下载文件:

# Or use curl -O if wget is not available
wget https://zenodo.org/record/2582855/files/lambda.phage_test_sample_1.fq.gz
wget https://zenodo.org/record/2582855/files/lambda.phage_test_sample_2.fq.gz

原始读取需要对齐。astair包含一个命令来帮助解决这个问题。它假设您的系统上有可用的samtools和samtools。(如果您喜欢使用不同的对齐器,请跳到步骤2)

您还需要一个索引的参考基因组来对齐,它可以作为gzip压缩文件提供。在本例中,我们使用的是lambda噬菌体基因组,您可以使用

wget https://zenodo.org/record/2582855/files/lambda_phage.fa
wget https://zenodo.org/record/2582855/files/lambda_phage.fa.fai

现在,您可以对齐了:

mkdir -p output_dir
astair align -f lambda_phage.fa -1 lambda.phage_test_sample_1.fq.gz -2 lambda.phage_test_sample_2.fq.gz -d output_dir
<H2>2。调用甲基化

一旦您的fastq文件被对齐和排序(通过astair align自动完成),您就可以运行astair call来创建一个假定的修改位置列表:

astair call -i output_dir/lambda.phage_test_sample_mCtoT.cram -f lambda_phage.fa --context CpG --minimum_base_quality 13 -d output_dir/
<H2>3。解释结果

调用甲基化之后,您将在output_dir中找到另外两个文件:

  1. lambda.phage_test_sample_mctot_mctot_cpg.stats
  2. lambda.噬菌体测试样本

stats文件包含不同序列上下文中修改率的全局统计信息。您可以使用这个来了解示例中修改的总体级别。在这里,您将发现关于参考文献中某些上下文的胞嘧啶位置有多少,其中有多少被覆盖,以及在相关链assum的覆盖位置有多少读操作被修改/未修改的信息。方向性。在我们的例子中,我们使用了体外修饰和未修饰的lambda噬菌体的1:1混合物,因此结果显示甲基化率约为50%:

<表><广告>上下文特定上下文 平均修改率 总位置 覆盖位置 已修改 未修改 < /广告><正文> Cpg*48.22562256225356153382377* CGA44.647121012106416079545* CGC/48.5951730173097842103499* CGG48.9361847年1847年108283112991* CGT49.8621438年1438年8586886342

.mods文件包含样本的每个位置信息:

<表><广告>色度开始<结尾>模块级别 <mod</th>卸载 <参考文献>< ALT特定上下文 上下文< SNV总深度 < /广告><正文>λ>c/td>>t/td> CGG Cpg<不< < > >λ>g/td> > CGC/ Cpg<不< < > >λ>c/td>>t/td> CGA Cpg<不< < > >λ>g/td> > CGC/ Cpg<不< < > >λ>c/td>>t/td> CGC/< <不< < > >λ>g/td> > CGA Cpg<不< < > >

标题应该基本上是不言而喻的。modunmod是指覆盖该基的读取数,它显示修改/未修改的证据,并且具有对修改调用有意义的正确方向。总覆盖率,包括以不可提取修改信息的方式定向的读取,显示在total_depth中。snv提供了一个启发性的指示,表明该位置是否确实是样本基因组中的一个修饰碱基,或是一个遗传的c-t变异。

其他有用信息

数据预处理建议

  1. 在映射和处理非常短的读取之前,使用fastqc,对序列读取进行质量控制,并进行质量调整。trimglore或类似工具。
  2. 在大多数情况下,最好在运行修改调用者之前删除PCR重复项,除非您的读取是非随机片段(例如酶消化)。
  3. 检查片段(插入)大小分布,并确定成对末端读取的重叠移除方法。最简单的选项是默认删除由astair call处理的重叠,后者将随机选择两个重叠读取中的一个。如果您正在使用更复杂的重叠剪裁工具,则可以通过-sc选项禁用此行为。
  4. 为了速度和方便,我们建议尽可能使用--per_染色体选项,以便在p阿拉尔这也减少了在台式机上运行astair时的内存需求。

WGBS数据分析(或其他未经修改的胞嘧啶-胸腺嘧啶转换方法)

mkdir -p output_dir
astair align -f lambda_phage.fa -1 lambda.phage_test_sample_BS_1.fastq.gz -2 lambda.phage_test_sample_BS_2.fastq.gz --method CtoT -d output_dir/

现在您可以将astair call--method ctot一起用于修改调用:

astair call -i output_dir/lambda.phage_test_sample_BS_CtoT.cram -f lambda_phage.fa --method CtoT --context CpG --minimum_base_quality 13 -d output_dir/

更多信息

许可证

本软件根据《GNU通用公共许可证v3》的条款提供。

本软件按"原样"提供,不作任何形式的明示或默示保证,包括但不限于适销性、特定用途适用性、所有权和不侵权的保证。在任何情况下,版权所有人或任何分发本软件的人均不对因本软件或本软件的使用或其他交易而产生的、由本软件引起的或与之相关的任何损害或其他责任负责,不论是在合同、侵权或其他方面。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库

亚硫酸氢盐测序数据的分析管道确实遵循与TAPS数据分析相同的步骤,但需要不同的选项。我们再次从fastq文件开始。为了避免bismark样式的双重对齐,我们更喜欢使用bwa meth,当您选择--method ctot选项时,可以通过astair align直接使用它。


热门话题
在java中的字符串字符下打印星号(*)   java在比较数据后得到错误的结果   java如何在使用JSP创建的网站中创建父子关系和处理?   java配置单元UDF:无法执行求值方法   java GAE项目Intellij远程调试在关闭时不释放端口   java按钮上的放大和缩小功能点击JfreeChart折线图?   java Selenium Chrome Web驱动程序SessionNotCreatedException   java由ADFactoryBuilder生成的线程工厂是线程安全的吗?   java将字符串[]传递给另一个类Android(使用intent)   我为什么要嘲笑java?   JavaLiferay门户不将对象从流程阶段发送到jsp   java我想在单击每个树节点时将要添加的信息放入jpanel jscrollpane中   在Java中模拟数组引用(即对引用的引用)的按引用传递   Jackson将JSON属性反序列化为不同的Java对象   java使用JSP/servlet在网页上显示Excel工作表?   仿射变换Java:使用仿射变换时游戏速度减慢   Servlet JBoss AS 7的java EJB注入   在Oracle数据库中使用Java的plsql   java管理Maven项目中的库依赖项   JavaEclipseLink(JPA)异常:复合主键@JoinColumn