一个用于kegg途径富集分析的python软件包
sharepathwa的Python项目详细描述
sharepathway是一个python包,用于kegg路径丰富分析和多个基因列表。
已经有几十种工具或网络服务器可以使用来自某些高通量实验(如exome seq和rna seq)的候选基因列表进行富集分析。但事实是,我们通常会得到多个基因列表,每个来自一个样本或病人。我们可以对每个样本进行富集分析,然后检查哪个途径或模块被富集。该策略简单,在癌症研究中常用。但我们可能会失去一些重要的驱动基因。
sharepathway旨在为用户提供一个简单易用的工具,用于同时对多个基因列表进行丰富分析,这可能有助于深入了解这些基因列表的潜在生物学背景。
安装
这个版本适用于python2和python3。 第一步是安装python。python可从Python project page获得。下一步是安装sharepathway。
使用pip,从pypi安装 python包管理器:
$ pip install sharepathway
或者,您可以在Github或PyPi下载sharepathway的源代码,然后运行:
$ python setup.py install
用法
假设您已将基因列表文件的所有路径放在目录~/data/中的一个摘要文件genelists.txt(每行一个路径)中。进入这个目录,打开python并运行下面的脚本。结果将保存在result.html文件中:
import sharepathway as sp filein="genelists.txt" fileout="result" sp.Run(fi=filein,fo=fileout,species='hsa',r=0.1)
物种的默认值是“hsa”,表示人类物种。 比率r是最小阈值。默认值为0.01。 支持entrez基因id。结果将输出到html文件。
输出说明
摘要
这一部分总结了输入数据。
详细信息
本部分列出了排名路径和相关信息,如下所示。
Column Description Pathway Pathway name and hyperlink to modified KEGG map Genes KEGG ID of the genes in the pathway pCount Total number of genes in the pathway Count The number of recognized genes from user input Ratio The percentage of lists that containing genes in the pathway Pvalue The combined p valude from Fisher’s Method EASE EASE score defined by DAVID, from merged gene list FET P value of the Fisher Exact Test, from merged gene list Samples The number of genes in the pathway in each list
测试数据
请参阅data/中的gene list files和genelists.txt文件。这只是玩具数据。