从几种rna序列比对工具的结果中提取高度自信的融合转录本的python工具。
fusionfusion的Python项目详细描述
融合
导言
fusion fusion是一种检测基因融合的软件 使用由几种著名的转录组对齐工具(star、mapsitec2和tophat2)生成的假定嵌合转录本。 许多预测的嵌合转录本是“假阳性”。 然而,通过有效的过滤,敏感和准确的基因融合检测是可能的。 经过比对步骤,软件可以生成最终的基因融合候选 把我们的软件集成到流水线上对你来说很容易!
依赖性
Python
Python(>;=2.7)、pysam (>= 0.8.1)
和^{
软件
安装
首先,从“发布”部分下载最新版本,或键入以下命令
wget https://github.com/Genomon-Project/fusionfusion/archive/v0.3.0.tar.gz
tar zxvf v0.3.0.tar.gz
或者,您可以下载最新的开发版本(可能不稳定)
git clone https://github.com/Genomon-Project/fusionfusion.git
然后,通过标准python包协议(https://docs.python.org/2/install/)安装包
cd fusionfusion-0.3.0
python setup.py build
python setup.py install
对于最后一个命令,如果您使用的是共享计算集群,则可能需要添加--user。
python setup.py install --user
准备工作
首先,你需要执行转录组测序,按星型排列,mappiect2,TopHat2
对于star,我们的软件使用嵌合sam文件
{output_prefix}.Chimeric.out.sam
对于Map拼接2,我们的软件使用读取对齐文件
alignments.sam (bam)
您不需要关心排序状态。
对于tophat2,我们的软件使用读取对齐文件
accepted_hits.bam
命令
fusionfusion [-h] [--version] [--star star.Chimeric.out.sam]
[--ms2 ms2.bam] [--th2 th2.bam] --out output_dir
--reference_genome reference.fa [--grc]
[--genome_id {hg19,hg38,mm10}]
[--pooled_control_file POOLED_CONTROL_FILE] [--debug]
[--debug] [--abnormal_insert_size ABNORMAL_INSERT_SIZE]
[--min_major_clipping_size MIN_MAJOR_CLIPPING_SIZE]
[--min_read_pair_num MIN_READ_PAIR_NUM]
[--min_valid_read_pair_ratio MIN_VALID_READ_PAIR_RATIO]
[--min_cover_size MIN_COVER_SIZE]
[--anchor_size_thres ANCHOR_SIZE_THRES]
[--min_chimeric_size MIN_CHIMERIC_SIZE]
[--min_allowed_contig_match_diff MIN_ALLOWED_CONTIG_MATCH_DIFF]
[--check_contig_size_other_breakpoint CHECK_CONTIG_SIZE_OTHER_BREAKPOINT]
[--filter_same_gene]
至少应指定一个--star,--ms2,--th2参数。
外参照基因组的争论是强制性的。
将基因组模型设置为--genome_id(默认为hg19)。
目前,我们支持hg19、hg38和mm10。
另外,如果您使用的是基于GRC的文件(染色体名中没有“chr”),请设置--GRC。
对于其他参数,请键入fusionfusion -h
。
尽管我们相信默认设置对于100bp长度的成对读取数据是合适的。,
调整min_cover_size可能有助于提高精度。
另外,使用由chimera_utils的merge_control命令生成的池控制文件
将大大减少误报。
结果
对于单个工具生成的结果(star.fusion.result.txt、ms2.fusion.result.txt和th2.fusion.result.txt):
- 第一个断点的染色体
- 第一个断点的坐标
- 第一个断点的方向
- 第二断点的染色体
- 第二个断点的坐标
- 第二个断点的方向
- 断点内插入核苷酸
- #支持融合的读对
- 基因重叠第一个断点
- 外显子-内含子连接重叠第一个断点
- 基因重叠第二个断点
- 外显子-内含子连接重叠第二个断点
- 第一个断点的连续匹配分数
- 第一个断点的控件大小
- 第2个断点的连续匹配分数
- 第二个断点的继续大小
对于合并结果(fusionfusion.result.txt):
- 第一个断点的染色体
- 第一个断点的坐标
- 第一个断点的方向
- 第二断点的染色体
- 第二个断点的坐标
- 第二个断点的方向
- 断点内插入核苷酸
- 基因重叠第一个断点
- 外显子-内含子连接重叠第一个断点
- 第二断点重叠的基因
- 外显子-内含子连接重叠第二个断点
- #支持变量的读取对(如果指定了--ms2,则通过映射拼接2)
- #支持变量的read_对(如果指定了--STAR,则按STAR)
- #支持变量的read_对(如果指定了--th2,则通过TopHat2)