预处理一组芯片序列样本

MAnorm2-utils的Python项目详细描述


用法

manorm2实用程序的主要实用程序来自于 使用它,分别命名为 profile\u bin sam2bed

在参考基因组区域分析芯片序列信号

给定一组 chip seq 示例, 配置文件箱 列出了参考列表 基因组箱(每个都在至少一个 ,并推断每个 每个样本中的容器。有关Mac的更多信息,请参阅 Mac 上述技术术语。

我们建议使用macs 1.4来识别芯片序列相关样本的峰值。 具有狭窄的基因组区域的读富集(例如,大多数样本 转录因子和组蛋白修饰,如H3K4ME3和H3K27AC)。在 事实上,尽管具有一般的适用性, profile_bin 是 特别适合处理由macs 1.4生成的输出文件。为了 构成广泛富集结构域的组蛋白修饰(例如,H3K9ME3和 h3k27me3),我们建议将sicer 作为调用者。

下面是最简单形式的 配置文件箱的示例用法:

profile_bins --peaks=peak1.bed,peak2.bed \
             --reads=read1.bed,read2.bed \
             --labs=s1,s2 -n example
< div > 注

配置文件箱 只识别床格式的输入文件。供阅读 对齐结果存储在sam文件中,首先使用sam2bed 在调用 配置文件箱之前将它们转换为床文件 由 sam2bed 创建的 配置文件箱 ;另请参阅下面的 部分。对于BAM格式的 文件,请参阅samtools 以将其转换为sam文件。

如果一切顺利,上面的命令将生成两个名为 示例配置文件库.txt 示例配置文件库.xls , 分别是。前者记录了 调用配置文件箱,以及有关每个 提供的芯片序列样本。后者给出读取计数和 每个样本中每个推导出的参考基因组bin的富集状态,以及 格式如下(此处显示的数据仅用于说明):

<表> 配置文件箱的示例输出
< COLGROUP > < COL/> < COL/> < COL/> < COL/> < COL/> < COL/> < COL/> <广告> 色度 开始 <结尾> s1.读取cnt s2.读取cnt s1.占用率 s2.占用率 < /广告> <正文> chr1 28112 29788 < 115 > < > > < 0 > < > > chr1 164156 166417 chr1 166417 168417 chr1 168417 169906 < 0 > < > > < > <表>

为了澄清这一点,当且仅当其 中间点被样本的某个峰值区域覆盖。

配置文件箱 支持自定义 用于推导参考基因组箱和计算读取数的配置 掉进去了。在命令行中键入 这些参数的完整列表和每个参数的简要说明。 其中,有几个参数值得特别注意:

  • 默认情况下, 配置文件箱 合并所有提供的芯片序列的峰值 将样本分成一组一致的峰区域,并将每个峰区域划分为宽的峰区域。 将峰值合并到连续的基因组箱中。指定 --典型的箱子大小 控制这种基因箱的大小。请注意,合并的峰值具有 与此参数相当的大小保持不变。

    缺省值 --typical bin size 为2000,非常适合 组蛋白修饰的芯片序列样本。芯片序列样品 转录因子,建议将参数设置为1000。

  • 如果提供的峰值位置可用(例如, 当使用macs 1.4来调用峰值时,您可以提供 通过指定 --summits 使用此信息配置文件箱。 首脑会议的立场将被用来确定一个适当的起点 分割合并的宽峰。

  • 或者,您可以直接指定一组基因组区域作为 通过将 --bin 设置为a bed 文件,将bin引用到profile。在这 案例, 配置文件箱 关注这些提供的箱,并抑制 峰值合并过程。

    --当 --指定了箱子

  • 在分配给引用容器之前,每个读(或读对)都是 转化为代表 潜在的DNA片段。默认情况下, 配置文件箱 处理提供的 读取为单端,并通过 --shiftsize 以达到假定的中间点。 --shiftsize 默认值为100,可以设置为实际DNA片段大小的一半 在库准备过程中选择。

  • 设置 --paired 以指示读取是paired end。在这种情况下, 与每个读对相关联的底层DNA片段的中点 可以准确推断。注意,两个读数来自同一芯片序列 只有当样本的 完全相同时,才将其视为读对 名称(即a bed 文件中的第4列)。

    --shiftsize 在设置 --paired 时被忽略。

  • --keep dup 控制程序关于重复读取的行为 (或读对)可能由PCR扩增引起的。对于单端 读取,如果两个读取的5'端映射到 同一GE几何轨迹;对于成对的末端读取,考虑两个读取对 如果它们隐含的DNA片段占据相同的基因组 间隔。

    默认情况下, 配置文件存储箱 保留 计数程序。对端读取和深度排序 单端读取,强烈建议将 --keep dup 设置为1 提高下游分析的特异性。在这种情况下,每个人 chip seq sample一组副本中只有一个read(或read pair)是 保留用于计数。还要注意,输出日志文件记录了 示例,由于 --保持dup

  • 配置文件箱支持使用配置文件 传递参数,以避免在命令行中重复键入。要做到这一点, 按照如下所示的格式编写配置文件,并 传递给 --参数

    peaks=peak1.bed,peak2.bed
    reads=read1.bed,read2.bed
    labs=s1,s2
    n=example
    summits=summit1.bed,summit2.bed
    paired
    keep-dup=1
    

    注意, --参数 可以与其他参数混合使用 命令行参数。

有关manorm2实用程序的完整规范,请参阅manorm2实用程序手册。 配置文件箱支持的参数

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java构造函数SimpleCommandBus()不可见   Java字符串和返回   java不能在类中使用上下文?   使用Java为SOAP定制DataHandler   java“访问被拒绝”在编译servlet时   java嵌入Jetty,在给定时间后终止请求   java如何使用预先指定的URL限制AWS S3 bucket中对象的上传大小?   java理解Azure文件存储:未知hostException   java将对象作为参数传递是否会产生与将其存储在字段中相同级别的耦合?   https告诉java客户端代码接受自签名证书   Java中的简单*权威DNS服务器*   Java解压缩字节数组错误数据检查   当我用SpringDoc和接口描述API规范时,java Spring控制器验证似乎不起作用   在Java中使用PHash(OpenCV)   Kotlin中的java简单继承示例   java Infinispan:ISPN004016:服务器不再位于群集中(127.0.0.1:11222),正在从池中删除   2行滑动菜单安卓本机JAVA   使用日期选择器时Android Studio中的java 4错误   java在<之间删除内容!和/>