可移植的python包,用于处理公开可用的带注释的基因集,如基因本体论和疾病本体论。
annotation-refiner的Python项目详细描述
annotation refinery python包包含处理 公开发表的注释基因集,如基因本体论和疾病 本体术语。
配置文件
注释精炼需要至少两个.ini配置文件 要运行的主目录:
- 带有主配置设置的main_config.ini文件,以及
- 至少一个<species>.ini文件,其中包含 这个物种所需要的注释文件,还有其他东西。用户可以 在主目录中为尽可能多的种类添加配置文件 他们要炼油厂处理。
或者,也可以有一个secrets.ini文件,它存储如下值 访问受限URL的用户名和密码。
主配置文件
主配置文件包括如下设置 物种文件,其中炼油厂的输出(已处理的基因集) 应加载到,其中应下载批注文件, 以及机密文件的位置(可选)。
[main] SECRETS_FILE: secrets.ini PROCESS_TO: Tribe # All other download folders in this files should be folders within # this root folder [download_folder] BASE_DOWNLOAD_FOLDER: download_files [Tribe parameters] TRIBE_URL: https://tribe.greenelab.com [species files] SPECIES_FILES: human.ini
物种档案
每个种类文件都应该包含所需注释文件的url 下载。
# File for human settings [species_info] SCIENTIFIC_NAME: Homo sapiens TAXONOMY_ID: 9606 SPECIES_DOWNLOAD_FOLDER: download_files/Human # *********************************************** # Below, add as sections the types of annotations # that should be downloaded and processed # *********************************************** [GO] DOWNLOAD: TRUE GO_OBO_URL: ftp://ftp.geneontology.org/go/ontology/obo_format_1_2/gene_ontology.1_2.obo ASSOC_FILE_URL: ftp://ftp.geneontology.org/go/gene-associations/gene_association.goa_human.gz EVIDENCE_CODES: EXP, IDA, IPI, IMP, IGI, IEP TAG_MAPPING_FILE: tag_mapping_files/brenda-gobp-all_mapping.dir.v2.txt GO_ID_COLUMN: 2 GO_NAME_COLUMN: 3 TAG_COLUMN: 1 TAG_FILE_HEADER: TRUE [KEGG] DOWNLOAD: TRUE KEGG_ROOT_URL: http://rest.kegg.jp DB_INFO_URL: /info/kegg SETS_TO_DOWNLOAD: /link/hsa/pathway, /link/hsa/module, /link/hsa/disease SET_INFO_DIR: /get/ # This is the type of gene identifier used by KEGG for this species XRDB: Entrez [DO] DOWNLOAD: TRUE DO_OBO_URL: http://sourceforge.net/p/diseaseontology/code/HEAD/tree/trunk/HumanDO.obo?format=raw MIM2GENE_URL: http://omim.org/static/omim/data/mim2gene.txt GENEMAP_URL: http://data.omim.org/downloads/<SecretKey>/genemap.txt # This is the type of gene identifier used by DO XRDB: Entrez TAG_MAPPING_FILE: tag_mapping_files/tissue-disease_curated-associations.txt DO_ID_COLUMN: 2 DO_NAME_COLUMN: 3 TAG_COLUMN: 1 TAG_FILE_HEADER: TRUE
机密文件
secrets文件包含数据库的用户名和密码, 用于下载注释文件的api的密钥,等等。
[OMIM API secrets] SECRET_KEY: ExampleSecretKey [Tribe secrets] TRIBE_ID: asdf1234 TRIBE_SECRET: qwerty1234 USERNAME: example_username PASSWORD: password
获取OMim API密钥的说明可以在以下位置找到: http://omim.org/downloads
获取部落秘密的说明可以在这里找到: http://tribe-greenelab.readthedocs.io/en/latest/api.html#creating-new-resources-through-tribe-s-api