st-pipeline:一种用于唯一转录本空间映射的自动化管道

stpipeline的Python项目详细描述


st管道包含处理所需的工具和脚本 并分析由空间转录组学生成的原始文件 方法以FastQ格式生成数据集以进行下游分析。 ST管道还可用于处理单个单元格数据 只要提供一个带有标识每个单元格的条形码的文件。 st管道还可以处理 或者没有umis。

ST管道已经过速度、稳健性和 易于使用与许多参数来调整所有设置。

需要以下文件/参数:

  • fastq文件(读取1,包含空间信息和umi 阅读包含基因组序列的2)
  • 用star生成的基因组索引
  • gtf或gff格式的注释文件(可选)
  • 包含条形码和数组坐标的文件
    (查看文件夹“ids”并选择正确的一个)。 基本上这个文件包含3列(条形码、X和Y)。 因此,如果您为该文件提供了标识输入单元格的条形码(例如), st管道可用于单单元数据。 此文件也是可选的。
  • 数据集的名称

ST管线有多个主要与修边有关的参数, 映射和注释,但通常默认值足够好。 您可以看到参数的完整描述 安装ST管道后,键入“st_pipeline_run.py–help”。

输入的fastq文件也可以用gzip/bzip格式给出。

基本上,st管道的作用是:

  • 质量微调(读取1和读取2):
    • 去除低质量底座
    • 健全性检查(读取相同长度、读取顺序等)
    • 检查质量umi(如果提供)
    • 删除用户定义长度的工件(polyt、polya、polyg、polyn和poly)
    • 检查AT和GC含量
    • 放弃至少有个基数的读操作,但上述任何检查都失败
  • 连续筛选e.x.rrna基因组(可选)
  • 用星形映射(只读2)
  • 用[TGAD](^ {A1})解复用(仅读取1)
  • 保持包含有效条形码且正确映射的读取(读取2)
  • 用htseq count(可选)注释读操作
  • 按条形码(点位置)和基因对带注释的读取进行分组,以获得读取计数
  • 在分组/计数中,只保留唯一分子(umi)。

您可以在documents workflow.pdf和workflow_extended.pdf中看到工作流的更详细的图形描述

输出将是计数矩阵(基因作为列,点作为行)。 包含转录本(读名、坐标、基因等)和json的bed文件 文件中包含有用的统计信息。 st管道还将输出包含有用信息的日志文件。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用jaxb2annotateplugin和XJC工具的java自定义注释   java组织。xeustechnologies。jcl无法加载WstxInputFactory类   java JUnit在格式化字符串上比较失败   java Bukkit配置部分getKeys   如何关闭Java流?   java Struts2正则表达式配置   链式事务注释的java奇怪行为   java在两个JButton之间使用变量   java签署APK时内容会发生什么变化?   java LWJGL:Slick:3D世界中的绘图字体   如何分解Java数组?   在Java MySql中处理多个过滤器   java如何在Firebase数据库中跳过初始OnChildaded事件触发   java如何在PreviewView中使用CameraX?   在子类#中重写父类后访问父类原始方法的java已解决   java找不到类型的属性   游戏框架游戏!框架+Java