一种用于纳米孔rna直接测序的通用序列读取处理器

poreplex的Python项目详细描述


孔丛

牛津纳米孔直接rna测序(drs)数据的信号级预处理器。 poreplex在进行下游分析之前需要执行许多预处理步骤 用于RNA生物学,并以随时可用的形式生成处理过的数据。

pypi status构建状态githublicensetwitter follow

功能

< >

安装

poreplex需要python 3.5+和pip才能安装。 这个pip命令安装带有其基本依赖项的poreplex。您可以使用 遵循命令。

pip install poreplex

要将其与所有可选依赖项(albacore除外)一起安装,请使用以下命令 命令:

pip install 'poreplex[full]'

附加(可选)依赖项

作为输入,poreplex需要使用 提前ontalbacore。 或者,poreplex也可以在 如果albacore包是 可从环境中获得。

快速启动

从一堆fast5文件生成不带3'适配器序列的fastq文件。

poreplex -i path/to/fast5 -o path/to/output --trim-adapter

四个直接的rna测序库可以进行条形码、集合和测序。 一起。porplex可以将库分解成单独的fastq文件。

poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding

此外,poreplex可以创建包含到 原来的fast5文件,由条形码单独组织。

poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --fast5

以防Fast5Files还没有被基址调用,只是一个开关 在内部调用albacore。多核机器帮助。

poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --fast5 --basecall --parallel 40

使用--live开关,可以在读取时立即处理所有任务 由Minknow生产。

poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --basecall --parallel 40 --live

可能需要将对齐的读取直接输出到BAM文件,而不是 FastQ输出。poreplex将处理后的读取流到minimap2并更新 BAM实时输出。使用 必须为此提供minimap2

poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --basecall \
  --parallel 40 --live --align GRCz11-transcriptome.mmidx

如果您打开仪表板开关,将提供更生动的反馈。

poreplex -i path/to/fast5 -o path/to/output --trim-adapter --barcoding --basecall \
  --parallel 40 --live --align GRCz11-transcriptome.mmidx --dashboard

poreplex检测可能来自 如果给出了--filter chimera,则信号分割不足。这个 提高了解复用的整体精度。

pip install poreplex
0

条码直接rna序列库

官方工具包和协议不支持直接rna中的条形码 顺序还没定。poreplex允许将多个库合并到一个库中 DRS运行。< /P>

通过随后附加 两种不同的3'适配器,RTA和RMX, 分别是。两个都是双链DNA,在 3侧。可以使用 RTA适配器。与dna测序文库不同,poreplex解复用 以确保最高的精度。包 配有四种不同DNA条码的预训练解复用器模型。 在实验中根据需要对这些序列进行排序,并替换 原装RTA适配器。

pip install poreplex
1
pip install poreplex
2
pip install poreplex
3
pip install poreplex
4

使用ont albacore进行基本呼叫

大多数需要信号电平分析的研究需要用 ontalbacore以获取fast5文件中的事件表。poreplex 可以在内部调用albacore的basecaller核心例程 下游分析的顺序和表格。事实上,跑步 albacoreviaporeplex比运行albacore要快得多 由于更高效的调度 计算负荷。

实时基址呼叫和处理

甚至在 开始排序。打开--live开关,它将监视 输入目录中的每个更新并选择新创建的 为整个分析过程归档。在直播模式下, 除非用户按ctrl-c(在 标准进度视图)或Q(在全屏仪表板视图中)。这个 inotify需要模块才能允许 poreplex以实时模式运行。

如果排序和分析的点不同, 一个实时目录同步软件,如dirsync pro可能会有帮助。poreplex检测新文件 通过在写入后移动或关闭文件而引入。文件是 通过创建硬链接或符号链接或更改权限使其可见 可能未被发现。

实时序列比对

poreplex使用 当 R提供参考。一些影响性能的选项 生成minimap2索引时可以指定对齐。

pip install poreplex
5

默认情况下,打开对齐将抑制fastq 输出。可以通过在命令行中添加--fastq来恢复它们。

实时报告

实时比对结果显示 管道可以可视化为文本中的全屏仪表板视图 终端。当 命令行包括 参考转录组的索引。映射序列的名称 显示为引用minimap2索引中的序列名。到 将它们视为更熟悉的名称,提供包含id和名称的文件 使用--contig aliases开关。必须是分开的标签 包含两列的文本文件。第一个应该包含id(在引用索引中) 第二个应该包含名称(显示在屏幕上)。读取计数 屏幕中间的窗口表示按分类的读取摘要 多路复用库的错误状态或检测到的条形码。用户可以 用上下箭头键选择要在窗口中显示的组。停止 处理并关闭仪表板,随时按q键。

伪融合滤波器

在牛津纳米孔链测序中,read是 来自信道的非常长的连续信号。在大多数情况下,有一个缺口 在两个不同的分子之间。间隙应该足够长,以便minknow 在序列结束时切断信号。然而,股线之间的间隙 有时是不够的,以至于一小部分读数携带两个或更多分子。 在使用条形码的池库中,这种现象可能特别有问题。 以及融合基因研究。在我们测试的几次运行中,多达1%的读取可以 从分割不足的信号中提取。下图显示了一个信号 序列继续,两个不同的端点之间没有任何间隙 在第二次结扎前独立制备的适应性rna 步骤,在此之前汇集rna(结扎前的rt包括热量- 酶的失活)。

poreplex通过检测 当--filter chimera开关 已打开。注意,过滤的默认参数可以是 对某些实验来说过于敏感。

输出格式

快速Q

序列和质量分数写入bgzip fastq文件位于fastq子目录中。每个fastq文件都包含 按处理状态和 检测到条形码。

<表><广告>文件名说明 < /广告><正文>fastq/pass.fastq.gz所有在poreplex中被基调用并通过基本质量过滤器的序列。使用--barcoding,没有可识别条形码的传递序列将写入此文件。fastq/bc.fastq.gz带有可识别条形码信号的序列。fastq/fail.fastq.gz无法为信号处理校准的序列太短。fastq/artifact.fastq.gz被归类为潜在A的序列事实。

当BAM输出被激活时,FastQ输出被抑制 --align选项。请添加--fastq以恢复fastq输出。

快速5

为了减少磁盘I/O,poreplex使用链接而不是复制 将basecalled结果追加到文件的原始fast5。与 --fast5选项,poreplex创建原始fast5的硬链接 在表示每个处理状态的子目录中重新组织的文件 或者条形码。如果硬链接不是 可能或指定了"符号链接快速5"。

基本调用事件,存储在analysis/basecall\u 1d\u 00* 在标准的fast5文件中,写入events子目录 而是根据--dump basecalled events的请求。基础课 所有读取的事件表都可以通过一个hdf5文件访问, events/inventory.h5,按读取ID。这些表包括 附加的scaled_mean列,其中包含平均电流水平 缩放以匹配ont的参考 孔模型

BAM

与参考转录组的对齐进入BAM文件 在bam子目录中。引用序列必须是 在为其提供--对齐之前,使用minimap2索引 选项(见上文)。巴姆 文件没有分类,也没有彻底过滤。fastq或fasta 可以从BAM文件生成序列文件而不会丢失 使用bedtools。 请在BAM文件中使用这些序列对齐以提高质量 仅检查和粗略分析。

纳米抛光数据库

纳米抛光非常方便 帮助信号电平分析的工具。poreplex提供一组索引 运行nanoploish命令所需的文件。添加纳米抛光剂 转到poreplex命令行,然后跳过nanoploish extractnanoploish index在其教程中使用命令,然后直接转到 主要步骤。

命令行选项

pip install poreplex
6 <表><广告>做空选项长选项 说明 < /广告><正文>数据设置-i目录--输入目录 输入fast5文件的目录路径(必需)-o目录--输出目录 输出目录路径(必需)-c名称--配置名称信号处理配置路径基本处理选项--微调适配器从FastQ输出修剪3'适配器序列--过滤蜂鸣音删除输出中两个或多个RNA的未点燃读取融合可选分析 --条形码 将条形码读取的内容分类到单独的输出中--波利亚输出poly(a)尾长测量值--basecall呼叫ont albacore进行动态呼叫 --对齐索引文件使用minimap2对齐basecalled读取并创建BAM文件实时模式--直播监视输入目录中的新文件——现场直播播放秒数实时模式下延迟分析开始的时间(默认值:60)输出选项--fastq即使在生成BAM文件时也写入FastQ文件--fast5将fast5文件链接或复制到单独的输出目录--symlink-fast5在输出目录中创建指向fast5文件的符号链接,即使可以进行硬链接--纳米抛光 创建一个NanoPolish readdb,以允许从NanoPolish进行访问--转储适配器信号转储适配器信号转储以进行培训--转储basecalled事件将basecalled事件转储到输出用户界面--仪表板显示全屏仪表板--contig别名文件以制表符分隔的文本文件的路径,以便别名在仪表板中显示为连续名称(请参阅自述文件)-q--安静 抑制非错误消息-y--是抑制所有问题管道选项-p计数--并行计数工作进程数(默认值:1)--tmpdir dir中间数据的临时目录--批量大小 单个批处理中的文件数(默认值:128)--版本显示程序的版本号并退出-h--帮助显示此帮助信息并退出

引用poreplex

很快就会上传预打印。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用Eclipse Helios for Web项目   java指定行。作为编译器设置的分隔符?   osm映射中带有osmdroid的java标记   java Android ClassNotFoundException在路径:DexPathList上未找到类   java从j2me调用GWT方法   更新到java 8后的aspectj问题   如何仅从根元素java,com提取文本内容。滴虫软件。是的。html   安卓公司。谷歌。火基。数据库DatabaseException:未能转换java类型的值。将字符串改为长字符串   从java中的方法返回arraylist变量   java如果将引用重新分配给同步块内的锁对象,会是什么?   java下载。使用spring mvc的资源文件中的xlsx文件   java Eclipse提供了什么工具来运行Eclipse中未包含的程序?   spring boot Java泛型如何读取传递给泛型方法的类型上的字段或调用方法   Javacard中的javaecdsa签名