预处理一组芯片序列样本
MAnorm2-utils的Python项目详细描述
用法
manorm2实用程序的主要实用程序来自于
使用它,分别命名为
profile\u bin
和
sam2bed
。
在参考基因组区域分析芯片序列信号
给定一组
chip seq
示例,
配置文件箱
列出了参考列表
基因组箱(每个都在至少一个
,并推断每个
每个样本中的容器。有关Mac的更多信息,请参阅
Mac
上述技术术语。
下面是最简单形式的
配置文件箱的示例用法:
profile_bins --peaks=peak1.bed,peak2.bed \
--reads=read1.bed,read2.bed \
--labs=s1,s2 -n example
< div >
注
配置文件箱
只识别床格式的输入文件。供阅读
对齐结果存储在sam文件中,首先使用sam2bed
在调用
配置文件箱之前将它们转换为床文件
由
sam2bed
创建的
配置文件箱
;另请参阅下面的
部分。对于BAM格式的
文件,请参阅samtools
以将其转换为sam文件。
如果一切顺利,上面的命令将生成两个名为
示例配置文件库.txt
和
示例配置文件库.xls
,
分别是。前者记录了
调用配置文件箱,以及有关每个
提供的芯片序列样本。后者给出读取计数和
每个样本中每个推导出的参考基因组bin的富集状态,以及
格式如下(此处显示的数据仅用于说明):
<表>
配置文件箱的示例输出
< COLGROUP >
< COL/>
< COL/>
< COL/>
< COL/>
< COL/>
< COL/>
< COL/>
<广告>
色度
开始
<结尾>
s1.读取cnt
s2.读取cnt
s1.占用率
s2.占用率
< /广告>
<正文>
chr1
28112
29788
< 115 > < > >
< 0 > < > >
chr1
164156
166417
chr1
166417
168417
chr1
168417
169906
< 0 > < > >
< >
<表>
为了澄清这一点,当且仅当其
中间点被样本的某个峰值区域覆盖。
配置文件箱
支持自定义
用于推导参考基因组箱和计算读取数的配置
掉进去了。在命令行中键入
这些参数的完整列表和每个参数的简要说明。
其中,有几个参数值得特别注意:
默认情况下,
配置文件箱
合并所有提供的芯片序列的峰值
将样本分成一组一致的峰区域,并将每个峰区域划分为宽的峰区域。
将峰值合并到连续的基因组箱中。指定
--典型的箱子大小
控制这种基因箱的大小。请注意,合并的峰值具有
与此参数相当的大小保持不变。
缺省值
--typical bin size
为2000,非常适合
组蛋白修饰的芯片序列样本。芯片序列样品
转录因子,建议将参数设置为1000。
如果提供的峰值位置可用(例如,
当使用macs 1.4来调用峰值时,您可以提供
通过指定
--summits
使用此信息配置文件箱。
首脑会议的立场将被用来确定一个适当的起点
分割合并的宽峰。
或者,您可以直接指定一组基因组区域作为
通过将
--bin
设置为a
bed
文件,将bin引用到profile。在这
案例,
配置文件箱
关注这些提供的箱,并抑制
峰值合并过程。
--当
--指定了箱子
。
在分配给引用容器之前,每个读(或读对)都是
转化为代表
潜在的DNA片段。默认情况下,
配置文件箱
处理提供的
读取为单端,并通过
--shiftsize
以达到假定的中间点。
--shiftsize
默认值为100,可以设置为实际DNA片段大小的一半
在库准备过程中选择。
设置
--paired
以指示读取是paired end。在这种情况下,
与每个读对相关联的底层DNA片段的中点
可以准确推断。注意,两个读数来自同一芯片序列
只有当样本的
完全相同时,才将其视为读对
名称(即a
bed
文件中的第4列)。
--shiftsize
在设置
--paired
时被忽略。
--keep dup
控制程序关于重复读取的行为
(或读对)可能由PCR扩增引起的。对于单端
读取,如果两个读取的5'端映射到
同一GE几何轨迹;对于成对的末端读取,考虑两个读取对
如果它们隐含的DNA片段占据相同的基因组
间隔。
默认情况下,
配置文件存储箱
保留
计数程序。对端读取和深度排序
单端读取,强烈建议将
--keep dup
设置为1
提高下游分析的特异性。在这种情况下,每个人
chip seq sample一组副本中只有一个read(或read pair)是
保留用于计数。还要注意,输出日志文件记录了
示例,由于
--保持dup
配置文件箱支持使用配置文件
传递参数,以避免在命令行中重复键入。要做到这一点,
按照如下所示的格式编写配置文件,并
传递给
--参数
peaks=peak1.bed,peak2.bed
reads=read1.bed,read2.bed
labs=s1,s2
n=example
summits=summit1.bed,summit2.bed
paired
keep-dup=1
注意,
--参数
可以与其他参数混合使用
命令行参数。
有关manorm2实用程序的完整规范,请参阅manorm2实用程序手册。
配置文件箱支持的参数