数据库序列分析库
pyDNase的Python项目详细描述
简介
pydnase是一套分析dnase seq数据的工具-pydnase附带了几个分析脚本,涵盖了dnase seq分析的几个常见用例,还实现了惠灵顿、惠灵顿1d和惠灵顿bootstrap足迹算法。
API
目前,许多分析dnase-seq数据的人使用的工具是为chip-seq工作而设计的,但对于dnase-seq数据来说可能不合适,因为人们对序列片段的重叠不太感兴趣,但是切割发生的位置(对齐序列片段的5'最末端)。
Pydnase有一个底层的API,用于与来自DNA序列实验的已排序和索引的BAM文件进行接口,从而允许从任何基因组位置(例如,
>>> import pyDNase >>> reads = pyDNase.BAMHandler(pyDNase.example_reads()) >>> reads["chr6,170863500,170863532,+"] {'+': [0,0,0,1,0,0,1,1,2,0,0,0,0,1,0,0,0,0,1,0,0,0,0,1,0,0,1,1,0,0,0,1], '-': [0,10,1,0,1,0,4,9,0,1,0,2,1,0,0,0,0,0,3,0,6,3,0,0,0,1,1,1,3,0,3,6]}
查询BAMHandler对象将返回一个字典,其中包含在正引用链(+)上具有dnase cut计数,在负引用链(-)上具有cut计数的列表。pydnase有效地缓存查询到的切割数据,这样来自同一基因组位置的多个请求不需要从bam文件中重复查找(这可以被禁用)。有关详细信息,请参阅完整文档。
支架
如果你有任何困难,请发邮件到j.piper@me.com,我会尽力帮助你。如果您发现任何错误,请在github repo上提出问题。如果你需要更多关于DNA序列或ATAC序列数据分析的正式培训,我可以提供咨询服务。同样,如果你是一个商业实体寻找支持合同,请联系。
贡献
我高度鼓励大家的贡献!这是我的第一个软件开发项目-以这种方式发送任何请求。我对任何人写的很酷的分析脚本都特别感兴趣。
参考
注意
如果你在工作中使用pydnase或惠灵顿算法,请引用以下论文。
Piper等人2013年。惠灵顿:从DNA序列数据中准确识别数字基因组足迹的新方法,核酸研究2013;doi:10.1093/nar/gkt850
Piper等人2015年。wellington bootstrap:differential dnase seq footprinting标识细胞类型决定转录因子,bmc genomics 2015;doi:10.1186/s12864-015-2081-4
许可证
版权所有(c)2015 Jason Piper。这项工作是在麻省理工学院的许可下授权的,详情见LICENCE.TXT。如果您需要在不同许可证下使用本软件,请发电子邮件至j.piper@me.com。