Python MAnorm2-utils包_程序模块 - PyPI

预处理一组芯片序列样本

MAnorm2-utils的Python项目详细描述

用法

manorm2实用程序的主要实用程序来自于使用它，分别命名为 profile\u bin 和 sam2bed 。

在参考基因组区域分析芯片序列信号

给定一组 chip seq 示例， 配置文件箱 列出了参考列表基因组箱（每个都在至少一个，并推断每个每个样本中的容器。有关Mac的更多信息，请参阅 Mac 上述技术术语。

我们建议使用macs 1.4来识别芯片序列相关样本的峰值。具有狭窄的基因组区域的读富集（例如，大多数样本转录因子和组蛋白修饰，如H3K4ME3和H3K27AC）。在事实上，尽管具有一般的适用性， profile_bin 是特别适合处理由macs 1.4生成的输出文件。为了构成广泛富集结构域的组蛋白修饰（例如，H3K9ME3和 h3k27me3），我们建议将sicer 作为调用者。

下面是最简单形式的 配置文件箱的示例用法：

profile_bins --peaks=peak1.bed,peak2.bed \
             --reads=read1.bed,read2.bed \
             --labs=s1,s2 -n example

   < div >
注
   

     配置文件箱
    
    只识别床格式的输入文件。供阅读
对齐结果存储在sam文件中，首先使用sam2bed
在调用
    
     配置文件箱之前将它们转换为床文件
由
     
      sam2bed
     
     创建的
     
      配置文件箱
     
     ；另请参阅下面的
     
      部分。对于BAM格式的
     
      文件，请参阅samtools
     
     以将其转换为sam文件。


    如果一切顺利，上面的命令将生成两个名为
    
     示例配置文件库.txt
    
    和
    
     示例配置文件库.xls
    
    ，
分别是。前者记录了
调用配置文件箱，以及有关每个
提供的芯片序列样本。后者给出读取计数和
每个样本中每个推导出的参考基因组bin的富集状态，以及
格式如下（此处显示的数据仅用于说明）：
   
   <表>
配置文件箱的示例输出
  
  < COLGROUP >
< COL/>
< COL/>
< COL/>
< COL/>
< COL/>
< COL/>
< COL/>

<广告>
色度
开始
<结尾>
s1.读取cnt
s2.读取cnt
s1.占用率
s2.占用率

< /广告>
<正文>
chr1
28112
29788
< 115 > < > >
  
    < 0 > < > >

chr1
164156
166417
    
        chr1
166417
168417
        
            chr1
168417
169906
            
              < 0 > < > >
              
               < >
<表>
               
                为了澄清这一点，当且仅当其
中间点被样本的某个峰值区域覆盖。
               

                 配置文件箱
                
                支持自定义
用于推导参考基因组箱和计算读取数的配置
掉进去了。在命令行中键入
这些参数的完整列表和每个参数的简要说明。
其中，有几个参数值得特别注意：
               

                  默认情况下，
                  
                   配置文件箱
                  
                  合并所有提供的芯片序列的峰值
将样本分成一组一致的峰区域，并将每个峰区域划分为宽的峰区域。
将峰值合并到连续的基因组箱中。指定
                  
                   --典型的箱子大小
控制这种基因箱的大小。请注意，合并的峰值具有
与此参数相当的大小保持不变。
                  

                   缺省值
                   
                    --typical bin size
                   
                   为2000，非常适合
组蛋白修饰的芯片序列样本。芯片序列样品
转录因子，建议将参数设置为1000。
                  

                   如果提供的峰值位置可用（例如，
当使用macs 1.4来调用峰值时，您可以提供
                   
                    通过指定
                    
                     --summits
                    
                    使用此信息配置文件箱。
首脑会议的立场将被用来确定一个适当的起点
分割合并的宽峰。
                   

                    或者，您可以直接指定一组基因组区域作为
通过将
                    
                     --bin
                    
                    设置为a
                    
                     bed
                    
                    文件，将bin引用到profile。在这
案例，
                    
                     配置文件箱
                    
                    关注这些提供的箱，并抑制
峰值合并过程。
                   

                     --当
                     
                      --指定了箱子
                     
                     。
                    

                     在分配给引用容器之前，每个读（或读对）都是
转化为代表
潜在的DNA片段。默认情况下，
                     
                      配置文件箱
                     
                     处理提供的
读取为单端，并通过
                     
                      --shiftsize
                     
                     以达到假定的中间点。
                     
                      --shiftsize
                     
                     默认值为100，可以设置为实际DNA片段大小的一半
在库准备过程中选择。
                    

                     设置
                     
                      --paired
                     
                     以指示读取是paired end。在这种情况下，
与每个读对相关联的底层DNA片段的中点
可以准确推断。注意，两个读数来自同一芯片序列
只有当样本的
                     
                      完全相同时，才将其视为读对
名称（即a
                      
                       bed
                      
                      文件中的第4列）。
                     

                       --shiftsize
                      
                      在设置
                      
                       --paired
                      
                      时被忽略。
                     

                       --keep dup
                      
                      控制程序关于重复读取的行为
（或读对）可能由PCR扩增引起的。对于单端
读取，如果两个读取的5'端映射到
同一GE几何轨迹；对于成对的末端读取，考虑两个读取对
如果它们隐含的DNA片段占据相同的基因组
间隔。
                     

                      默认情况下，
                      
                       配置文件存储箱
                      
                      保留
计数程序。对端读取和深度排序
单端读取，强烈建议将
                      
                       --keep dup
                      
                      设置为1
提高下游分析的特异性。在这种情况下，每个人
chip seq sample一组副本中只有一个read（或read pair）是
保留用于计数。还要注意，输出日志文件记录了
示例，由于
                      
                       --保持dup
                      

                       配置文件箱支持使用配置文件
传递参数，以避免在命令行中重复键入。要做到这一点，
按照如下所示的格式编写配置文件，并
传递给
                       
                        --参数
                       
peaks=peak1.bed,peak2.bed
reads=read1.bed,read2.bed
labs=s1,s2
n=example
summits=summit1.bed,summit2.bed
paired
keep-dup=1

                        注意，
                        
                         --参数
                        
                        可以与其他参数混合使用
命令行参数。
                       

                      有关manorm2实用程序的完整规范，请参阅manorm2实用程序手册。
配置文件箱支持的参数

欢迎加入QQ群-->： 979659372

MAnorm2-utils 1.0.0

MAnorm2-utils的Python项目详细描述

用法

在参考基因组区域分析芯片序列信号

推荐PyPI第三方库

pyMSA

unp

astar_art

styletransfer

mirasol

odoo8-addon-stock-lot-quantit

Christofides

particleman

etianen-cms

odoo9-addon-connector-base-product

certbot-dns-dnspod

django-trusts

datasync

diapysef

run-timer

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

MAnorm2-utils 1.0.0

MAnorm2-utils的Python项目详细描述

用法

在参考基因组区域分析芯片序列信号

推荐PyPI第三方库

pyMSA

unp

astar_art

styletransfer

mirasol

odoo8-addon-stock-lot-quantit

Christofides

particleman

etianen-cms

odoo9-addon-connector-base-product

certbot-dns-dnspod

django-trusts

datasync

diapysef

run-timer

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签