要重新检查群集的包
denovonear的Python项目详细描述
去核
该代码评估了从头开始的单核苷酸变异是否更接近 一起在基因的编码序列中比预期的更偶然。我们用 基于局部序列的变异率用于解释 区域。默认速率基于三核苷酸,见Nature Genetics 46:944–950,但是 您可以使用自己的速率,甚至更长的序列上下文,例如5-mers或 7个月。
安装
pip install denovonear
使用量
分析python中的de novo突变:
fromdenovonear.cluster_testimportcluster_de_novossymbol='PPP2R5D'de_novos={'missense':[42975003,42975003,42975003,42975013],'nonsense':[]}p_values=cluster_de_novos(symbol,de_novos,iterations=1000000)
通过创建transcript对象提取特定于站点的速率,然后获取 每个地点按后果划分的费率
fromdenovonear.ensembl_requesterimportEnsemblRequestfromdenovonear.load_mutation_ratesimportload_mutation_ratesfromdenovonear.load_geneimportconstruct_gene_objectfromdenovonear.site_specific_ratesimportSiteRates# convenience object to extract transcript coordinates and sequence from Ensemblensembl=EnsemblRequest(cache_folder='cache',genome_build='grch37')transcript=construct_gene_object(ensembl,'ENST00000346085')mut_rates=load_mutation_rates()rates=SiteRates(transcript,mut_rates)# rates are stored by consequence, but you can iterate through to find all# possible sites in and around the CDS:forcqin['missense','nonsense','splice_lof','synonymous']:forsiteinrates[cq]:site['pos']=transcript.get_position_on_chrom(site['pos'],site['offset'])# or if you just want the summed raterates['missense'].get_summed_rate()
您还可以通过denovonear命令分析从头聚类:
denovonear cluster \ --in data/example_de_novos.txt \ --out output.txt
该命令使用git中包含的一个最小的从头开始输入文件示例 储存库。输入是一个制表符分隔的文件,每个从头开始都有一行 事件。列为hgnc符号、染色体、位置、vep结果 变量,以及从头开始是snp还是indel(分析不包括 英得尔斯)。
其他选项包括:
--rates PATH_TO_RATES
--cache-folder PATH_TO_CACHE_DIR
--genome-build "grch37" or "grch38" (default=grch37)
可选的rates文件是一个表分隔的文件,有三列:“from”, “收件人”和“mu_snp”。“from”列包含DNA序列(其中 是一个奇数),其碱基在中心核苷酸处改变。“到” 列包含修改了中心基的序列。“mu_snp”栏 包含更改的概率(按每代站点)。
缓存文件夹默认为在工作区内创建一个名为“cache”的文件夹。 目录。基因组构建表明哪个基因组构建 从头变量基于GRCH37,默认为GRCH37。
识别包含新事件的转录本
您可以使用
identify_transcripts.py
脚本。这可以识别
具有一个或多个从头事件的基因,或识别
包含所有从头开始的转录本(其中转录本优先于
重新开始事件数的基础,以及编码序列的长度)。抄本
可通过以下方式识别:
。代码::bash
denovonear transcripts \
--de-novos data/example_de_novos.txt \
--out output.txt \
--all-transcripts
其他选项包括:
--minimise-transcripts
代替--all-transcripts
,找到最小 成绩单--genome-build "grch37" or "grch38" (default=grch37)
基于基因或转录的突变率
你可以为任意一个可供选择的转录本联合产生突变率
对于一个基因,或者一个特定的整合转录体id
construct_mutation_rates.py
脚本。lof和错义突变率可以是
生成时间:
denovonear rates \ --genes data/example_gene_ids.txt \ --out output.txt
以制表符分隔的输出文件将包含每个基因/转录本的一行,其中 每一行包含一个转录id或基因符号,一个log10转化 错义突变率、log10转化无义突变率和log10 转化同义突变率。