从几种rna序列比对工具的结果中提取高度自信的融合转录本的python工具。

fusionfusion的Python项目详细描述


融合

License: GPL v3Build Status

导言

fusion fusion是一种检测基因融合的软件 使用由几种著名的转录组对齐工具(star、mapsitec2和tophat2)生成的假定嵌合转录本。 许多预测的嵌合转录本是“假阳性”。 然而,通过有效的过滤,敏感和准确的基因融合检测是可能的。 经过比对步骤,软件可以生成最终的基因融合候选 把我们的软件集成到流水线上对你来说很容易!

依赖性

Python

Python(>;=2.7)、pysam (>= 0.8.1)^{}

软件

blat

安装

首先,从“发布”部分下载最新版本,或键入以下命令

wget https://github.com/Genomon-Project/fusionfusion/archive/v0.3.0.tar.gz
tar zxvf v0.3.0.tar.gz

或者,您可以下载最新的开发版本(可能不稳定)

git clone https://github.com/Genomon-Project/fusionfusion.git

然后,通过标准python包协议(https://docs.python.org/2/install/)安装包

cd fusionfusion-0.3.0
python setup.py build
python setup.py install

对于最后一个命令,如果您使用的是共享计算集群,则可能需要添加--user。

python setup.py install --user

准备工作

首先,你需要执行转录组测序,按星型排列,mappiect2,TopHat2

对于star,我们的软件使用嵌合sam文件

{output_prefix}.Chimeric.out.sam

对于Map拼接2,我们的软件使用读取对齐文件

alignments.sam (bam)

您不需要关心排序状态。

对于tophat2,我们的软件使用读取对齐文件

accepted_hits.bam

命令

fusionfusion [-h] [--version] [--star star.Chimeric.out.sam]
                  [--ms2 ms2.bam] [--th2 th2.bam] --out output_dir
                  --reference_genome reference.fa [--grc]
                  [--genome_id {hg19,hg38,mm10}]
                  [--pooled_control_file POOLED_CONTROL_FILE] [--debug]
                  [--debug] [--abnormal_insert_size ABNORMAL_INSERT_SIZE]
                  [--min_major_clipping_size MIN_MAJOR_CLIPPING_SIZE]
                  [--min_read_pair_num MIN_READ_PAIR_NUM]
                  [--min_valid_read_pair_ratio MIN_VALID_READ_PAIR_RATIO]
                  [--min_cover_size MIN_COVER_SIZE]
                  [--anchor_size_thres ANCHOR_SIZE_THRES]
                  [--min_chimeric_size MIN_CHIMERIC_SIZE]
                  [--min_allowed_contig_match_diff MIN_ALLOWED_CONTIG_MATCH_DIFF]
                  [--check_contig_size_other_breakpoint CHECK_CONTIG_SIZE_OTHER_BREAKPOINT]
                  [--filter_same_gene]

至少应指定一个--star,--ms2,--th2参数。 外参照基因组的争论是强制性的。 将基因组模型设置为--genome_id(默认为hg19)。 目前,我们支持hg19、hg38和mm10。 另外,如果您使用的是基于GRC的文件(染色体名中没有“chr”),请设置--GRC。 对于其他参数,请键入fusionfusion -h。 尽管我们相信默认设置对于100bp长度的成对读取数据是合适的。, 调整min_cover_size可能有助于提高精度。 另外,使用由chimera_utils的merge_control命令生成的池控制文件 将大大减少误报。

结果

对于单个工具生成的结果(star.fusion.result.txt、ms2.fusion.result.txt和th2.fusion.result.txt):

  1. 第一个断点的染色体
  2. 第一个断点的坐标
  3. 第一个断点的方向
  4. 第二断点的染色体
  5. 第二个断点的坐标
  6. 第二个断点的方向
  7. 断点内插入核苷酸
  8. #支持融合的读对
  9. 基因重叠第一个断点
  10. 外显子-内含子连接重叠第一个断点
  11. 基因重叠第二个断点
  12. 外显子-内含子连接重叠第二个断点
  13. 第一个断点的连续匹配分数
  14. 第一个断点的控件大小
  15. 第2个断点的连续匹配分数
  16. 第二个断点的继续大小

对于合并结果(fusionfusion.result.txt):

  1. 第一个断点的染色体
  2. 第一个断点的坐标
  3. 第一个断点的方向
  4. 第二断点的染色体
  5. 第二个断点的坐标
  6. 第二个断点的方向
  7. 断点内插入核苷酸
  8. 基因重叠第一个断点
  9. 外显子-内含子连接重叠第一个断点
  10. 第二断点重叠的基因
  11. 外显子-内含子连接重叠第二个断点
  12. #支持变量的读取对(如果指定了--ms2,则通过映射拼接2)
  13. #支持变量的read_对(如果指定了--STAR,则按STAR)
  14. #支持变量的read_对(如果指定了--th2,则通过TopHat2)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java FloatingAction按钮与RecyclerView中的CardView重叠   java如何计算CardLayout中的卡数   从远程系统上传MySQL数据库并访问Java应用程序   java调用堆栈如何处理带或不带返回类型的递归?   Springboot中的java组计数聚集   java如何在javafx textarea中使用richtextfx   获取与Mockito相关的错误时出现Java问题   java如何将JaxRS响应转换为Wiremock响应   Hadoop集群java。net ConnectionException:连接被拒绝错误   java如何加载文件私有文件类型是pem   java在元空间中的提升和加载的类   如何将系统属性传递给从HTML启动的Java小程序   java如何从网页中获取值并在主类中使用它?安卓应用   java在春天,advisor和aspect之间有什么区别?   java如何检测文件是否已重命名?   java消息驱动Bean何时使用