基于sqlalchemy的负鼠转录因子结合数据库接口。
pyopossum3的Python项目详细描述
该包为oPOSSUM3原始数据库表提供了一个面向对象的访问接口。
安装
安装包的最简单方法是通过easy_install或pip:
$ easy_install pyopossum3
依赖关系
- SQLAlchemy
- PyMySQL或任何其他SQLAlchemy-compatible MySQL connector。
用法
用法示例如下:
>>> from pyopossum3 import Opossum >>> o = Opossum("mysql+pymysql://opossum_r:@opossum.cmmt.ubc.ca/oPOSSUM3_human") >>> o.ConservedTfbs.query.first().gene >>> o.ExternalGeneId.query.filter(o.ExternalGeneId.external_id.in_(['TSPAN6'])).filter(o.ExternalGeneId.gene.has(chr='X')).first().gene ... etc ...
第二行创建到负鼠服务器的连接,第三/第四行使用sqlalchemy语法查询conserved_tfbss和external_gene_ids表。
当然,对于繁重的分析,建议您建立自己的数据库副本。 有关如何下载数据的说明,请参见here。
您可以通过运行以下命令来了解数据库的结构:
>>> for cls in o.all_orm_classes: >>> print cls.query.first()
您可能应该关心的主表是ConservedTfbs,它包含每个基因附近的匹配项,并用匹配分数和保存级别进行注释。
使用ucscgenome包验证tfbs序列是否确实正确的示例:
>>> c = o.ConservedTfbs.query.filter(o.ConservedTfbs.strand==1).first() >>> c.gene.chr, c.absolute_start, c.absolute_end, c.seq ('X', 99890235L, 99890253L, 'AGAAACATTGCATACTGC') >>> from ucscgenome import Genome >>> g = Genome('hg19') >>> g['chrX'][99890235:99890253] 'AGAAACATTGCATACTGC'
注
此软件包的作者与负鼠工具的创建者和维护者无关。
另请参见
- 在github上报告问题并提交修复:https://github.com/konstantint/pyopossum3