一种用于纳米孔rna直接测序的通用序列读取处理器
poreplex的Python项目详细描述
孔丛
牛津纳米孔直接rna测序(drs)数据的信号级预处理器。 poreplex在进行下游分析之前需要执行许多预处理步骤 用于RNA生物学,并以随时可用的形式生成处理过的数据。
功能
- 解复用条形码直接rna测序库
- 修剪3'适配器序列
- 过滤伪融合读取
- 使用ontalbacore进行基本呼叫(甚至比albacore本身更快)
- 在排序过程中,实时基址调用和处理
- 使用minimap2的实时读取对齐
- 实时报告的全屏仪表板视图
- 各种现成的输出格式
< >
安装
poreplex需要python 3.5+和pip才能安装。 这个pip命令安装带有其基本依赖项的poreplex。您可以使用 遵循命令。
pip install poreplex
要将其与所有可选依赖项(albacore除外)一起安装,请使用以下命令 命令:
pip install 'poreplex[full]'
附加(可选)依赖项
作为输入,poreplex需要使用 提前ontalbacore。 或者,poreplex也可以在 如果albacore包是 可从环境中获得。
快速启动
从一堆fast5文件生成不带3'适配器序列的fastq文件。
poreplex -i path/to/fast5 -o path/to/output --trim-adapter
四个直接的rna测序库可以进行条形码、集合和测序。 一起。porplex可以将库分解成单独的fastq文件。
poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding
此外,poreplex可以创建包含到 原来的fast5文件,由条形码单独组织。
poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --fast5
以防Fast5Files还没有被基址调用,只是一个开关 在内部调用albacore。多核机器帮助。
poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --fast5 --basecall --parallel 40
使用--live
开关,可以在读取时立即处理所有任务
由Minknow生产。
poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --basecall --parallel 40 --live
可能需要将对齐的读取直接输出到BAM文件,而不是 FastQ输出。poreplex将处理后的读取流到minimap2并更新 BAM实时输出。使用 必须为此提供minimap2。
poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --basecall \ --parallel 40 --live --align GRCz11-transcriptome.mmidx
如果您打开仪表板开关,将提供更生动的反馈。
poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --basecall \ --parallel 40 --live --align GRCz11-transcriptome.mmidx --dashboard
poreplex检测可能来自
如果给出了--filter chimera
,则信号分割不足。这个
提高了解复用的整体精度。
pip install poreplex0
条码直接rna序列库
官方工具包和协议不支持直接rna中的条形码 顺序还没定。poreplex允许将多个库合并到一个库中 DRS运行。< /P>
通过随后附加 两种不同的3'适配器,RTA和RMX, 分别是。两个都是双链DNA,在 3侧。可以使用 RTA适配器。与dna测序文库不同,poreplex解复用 以确保最高的精度。包 配有四种不同DNA条码的预训练解复用器模型。 在实验中根据需要对这些序列进行排序,并替换 原装RTA适配器。
pip install poreplex1
pip install poreplex2
pip install poreplex3
pip install poreplex4
使用ont albacore进行基本呼叫
大多数需要信号电平分析的研究需要用 ontalbacore以获取fast5文件中的事件表。poreplex 可以在内部调用albacore的basecaller核心例程 下游分析的顺序和表格。事实上,跑步 albacoreviaporeplex比运行albacore要快得多 由于更高效的调度 计算负荷。
实时基址呼叫和处理
甚至在
开始排序。打开--live
开关,它将监视
输入目录中的每个更新并选择新创建的
为整个分析过程归档。在直播模式下,
除非用户按ctrl-c(在
标准进度视图)或Q(在全屏仪表板视图中)。这个
inotify需要模块才能允许
poreplex以实时模式运行。
如果排序和分析的点不同, 一个实时目录同步软件,如dirsync pro可能会有帮助。poreplex检测新文件 通过在写入后移动或关闭文件而引入。文件是 通过创建硬链接或符号链接或更改权限使其可见 可能未被发现。
实时序列比对
poreplex使用 当 R提供参考。一些影响性能的选项 生成minimap2索引时可以指定对齐。
pip install poreplex5
默认情况下,打开对齐将抑制fastq
输出。可以通过在命令行中添加--fastq
来恢复它们。
实时报告
实时比对结果显示
管道可以可视化为文本中的全屏仪表板视图
终端。当
命令行包括
参考转录组的索引。映射序列的名称
显示为引用minimap2索引中的序列名。到
将它们视为更熟悉的名称,提供包含id和名称的文件
使用--contig aliases
开关。必须是分开的标签
包含两列的文本文件。第一个应该包含id(在引用索引中)
第二个应该包含名称(显示在屏幕上)。读取计数
屏幕中间的窗口表示按分类的读取摘要
多路复用库的错误状态或检测到的条形码。用户可以
用上下箭头键选择要在窗口中显示的组。停止
处理并关闭仪表板,随时按q键。
伪融合滤波器
在牛津纳米孔链测序中,read是 来自信道的非常长的连续信号。在大多数情况下,有一个缺口 在两个不同的分子之间。间隙应该足够长,以便minknow 在序列结束时切断信号。然而,股线之间的间隙 有时是不够的,以至于一小部分读数携带两个或更多分子。 在使用条形码的池库中,这种现象可能特别有问题。 以及融合基因研究。在我们测试的几次运行中,多达1%的读取可以 从分割不足的信号中提取。下图显示了一个信号 序列继续,两个不同的端点之间没有任何间隙 在第二次结扎前独立制备的适应性rna 步骤,在此之前汇集rna(结扎前的rt包括热量- 酶的失活)。
poreplex通过检测
当--filter chimera
开关
已打开。注意,过滤的默认参数可以是
对某些实验来说过于敏感。
输出格式
快速Q
序列和质量分数写入bgzip
fastq文件位于fastq
子目录中。每个fastq文件都包含
按处理状态和
检测到条形码。
fastq/pass.fastq.gz
--barcoding
,没有可识别条形码的传递序列将写入此文件。fastq/bc.fastq.gz
fastq/fail.fastq.gz
fastq/artifact.fastq.gz
当BAM输出被激活时,FastQ输出被抑制
--align
选项。请添加--fastq
以恢复fastq输出。
快速5
为了减少磁盘I/O,poreplex使用链接而不是复制
将basecalled结果追加到文件的原始fast5。与
--fast5
选项,poreplex创建原始fast5的硬链接
在表示每个处理状态的子目录中重新组织的文件
或者条形码。如果硬链接不是
可能或指定了"符号链接快速5"。
基本调用事件,存储在analysis/basecall\u 1d\u 00*
在标准的fast5文件中,写入events
子目录
而是根据--dump basecalled events的请求。基础课
所有读取的事件表都可以通过一个hdf5文件访问,
events/inventory.h5
,按读取ID。这些表包括
附加的scaled_mean
列,其中包含平均电流水平
缩放以匹配ont的参考
孔模型
BAM
与参考转录组的对齐进入BAM文件
在bam
子目录中。引用序列必须是
在为其提供--对齐之前,使用minimap2索引
选项(见上文)。巴姆
文件没有分类,也没有彻底过滤。fastq或fasta
可以从BAM文件生成序列文件而不会丢失
使用bedtools。
请在BAM文件中使用这些序列对齐以提高质量
仅检查和粗略分析。
纳米抛光数据库
纳米抛光非常方便
帮助信号电平分析的工具。poreplex提供一组索引
运行nanoploish命令所需的文件。添加纳米抛光剂
转到poreplex命令行,然后跳过nanoploish extract
或
nanoploish index
在其教程中使用命令,然后直接转到
主要步骤。
命令行选项
pip install poreplex6 <表><广告>
-i目录
--输入目录
输入fast5文件的目录路径(必需)
-o目录
--输出目录
输出目录路径(必需)
-c名称
--配置名称
--微调适配器
--过滤蜂鸣音
--条形码
将条形码读取的内容分类到单独的输出中
--波利亚
--basecall
--对齐索引文件
--直播
——现场直播播放秒数
--fastq
--fast5
--symlink-fast5
--纳米抛光
创建一个NanoPolish readdb,以允许从NanoPolish进行访问
--转储适配器信号
--转储basecalled事件
--仪表板
--contig别名文件
-q
--安静
抑制非错误消息
-y
--是
-p计数
--并行计数
--tmpdir dir
--批量大小
单个批处理中的文件数(默认值:128)
--版本
-h
--帮助
引用poreplex
很快就会上传预打印。