与iedb和其他免疫表位数据的python接口
epitopes的Python项目详细描述
表位
==
计算免疫学的一个重要方面是模拟[肽]的特性(http://en.wikipedia.org/wiki/peptide)(氨基酸短串)。肽可以作为子串[剪切](http://en.wikipedia.org/wiki/proteopolysis)从更大的蛋白质中产生,自然产生的[小蛋白质](http://en.wikipedia.org/wiki/alpha amanitin),或者被[合成](micchm01.u.hpc.mssm.edu/dashboard/accounts/activate/e2b4804ac4d7e59dcff89a474d1971b8a36dff77/
)用于治疗目的。
做出有用的预测(即“疫苗中应该含有哪些肽?”)我们需要将肽的组合空间划分为[表位](http://en.wikipedia.org/wiki/depitepe)和非表位(肽是由[mhc分子](http://en.wikipedia.org/wiki/major\u histocompatibility)呈现的吗?)或[免疫原性](http://en.wikipedia.org/wiki/immunogenicity)与非免疫原性(do[白细胞](http://en.wikipedia.org/wiki/lyclets)应答?)捕捉这种区别的一种方法是收集大量有关肽的数据,并利用这些数据建立其免疫特性的统计模型。这个库通过向常用的免疫学和生物信息学数据集提供简单的python/numpy/pandas接口来帮助您构建这样的模型。
**数据源**
-`iedb`:[免疫表位数据库](http://www.iedb.org)。mhc结合和t细胞/b细胞反应的大量表位分析结果
-`tcga':从[tcga]提取的变异肽子串(http://en.wikipedia.org/wiki/the_cancer_genome_atlas)跨所有癌症类型的突变
-`reference':从[human reference protein]提取的肽子串序列](ftp://ftp.ensembl.org/pub/release-75/fasta/homo-sapiens/pep/)
-`imma2`:tung等人使用的imma2表位免疫原性与非免疫原性数据集。用于评估[popisk](http://www.biomedcentral.com/1471-2105/12/446)免疫原性预测因子
-`calis`:calis等人的[mhcⅠ类的特性提出了增强免疫原性的肽]中使用的两个数据集(http://www.ploscopbiol.org/article/info%3adoi%2f10.1371%2fjournal.pcbi.1003266\pcbi.1003266.s005)
-`hpv`:[人类乳头瘤病毒T细胞抗原数据库(http://cvc.dfcc.dvcI.C.CVCGIG/HPV/]):[动物毒素数据库]的毒性蛋白序列(http://PurcCim.HunnU.EdU.CN./毒素/)-BR/> -'DANAFARBER ]:[ Dana Farber医学免疫学知识库](http://Biop.dfcI.Hual.EdU/DFRMLI)/
-T-抗原:[肿瘤T细胞抗原]数据库](http://cvc.dfci.harvard.edu/tadb/)
-`hiv-frahm`:不同人种对hiv抗原表位的反应(来自[lanl-hiv数据库](http://www.hiv.lanl.gov/content/immunology/hlatem/study1/index.html))
-`cri-tumor-antigenses`:来自[cancer-immunity]的肿瘤相关肽(http://cancerimmunity.org/peptide/transitions/)
-` Fritsch_新表位`:Fritsch等人的突变和野生型肿瘤表位。[人类肿瘤新表位的hla结合特性](http://cancerimmunolres.aacrjournals.org/content/early/2014/03/01/2326-6066.cir-13-0227.abstract)
计划:
-`bcipep`:[b-细胞表位](http://www.imtech.res.in/raghava/bcipep/data.html)
表位,则只需要两个函数:
-`load撸uzzle`:返回一组氨基酸串
-`load撸uzzle撸rams`:数组,其行是转换成n-gram向量空间的氨基酸。
如果数据集包含有关表位的附加数据(如hla-u型或源蛋白):
-`load-wuzzle`:返回带有表位字符串和附加属性的数据帧
-`load-wuzzle`:表位氨基酸字符串集
-`load-wuzzle`grams`:行是转换成n-gram向量的氨基酸的数组空间。
ssay results),则应提供以下函数:
-`load_wuzzle`:从“wuzzle”数据集中加载所有可用的数据(通过“mhc_class”等选项筛选)。
-`加载初值':按表位字符串对数据集进行分组,并将每个表位与阳性结果的百分比相关联。
-`加载初吻类':将表位分成正类和负类,为每个表位返回一组字符串。
-`加载口吻`:将氨基酸串表示(或一些简化的字母表)转换成n克频率的向量,返回一对sklearn兼容的`(样本、标签)`数组。
==
计算免疫学的一个重要方面是模拟[肽]的特性(http://en.wikipedia.org/wiki/peptide)(氨基酸短串)。肽可以作为子串[剪切](http://en.wikipedia.org/wiki/proteopolysis)从更大的蛋白质中产生,自然产生的[小蛋白质](http://en.wikipedia.org/wiki/alpha amanitin),或者被[合成](micchm01.u.hpc.mssm.edu/dashboard/accounts/activate/e2b4804ac4d7e59dcff89a474d1971b8a36dff77/
)用于治疗目的。
做出有用的预测(即“疫苗中应该含有哪些肽?”)我们需要将肽的组合空间划分为[表位](http://en.wikipedia.org/wiki/depitepe)和非表位(肽是由[mhc分子](http://en.wikipedia.org/wiki/major\u histocompatibility)呈现的吗?)或[免疫原性](http://en.wikipedia.org/wiki/immunogenicity)与非免疫原性(do[白细胞](http://en.wikipedia.org/wiki/lyclets)应答?)捕捉这种区别的一种方法是收集大量有关肽的数据,并利用这些数据建立其免疫特性的统计模型。这个库通过向常用的免疫学和生物信息学数据集提供简单的python/numpy/pandas接口来帮助您构建这样的模型。
**数据源**
-`iedb`:[免疫表位数据库](http://www.iedb.org)。mhc结合和t细胞/b细胞反应的大量表位分析结果
-`tcga':从[tcga]提取的变异肽子串(http://en.wikipedia.org/wiki/the_cancer_genome_atlas)跨所有癌症类型的突变
-`reference':从[human reference protein]提取的肽子串序列](ftp://ftp.ensembl.org/pub/release-75/fasta/homo-sapiens/pep/)
-`imma2`:tung等人使用的imma2表位免疫原性与非免疫原性数据集。用于评估[popisk](http://www.biomedcentral.com/1471-2105/12/446)免疫原性预测因子
-`calis`:calis等人的[mhcⅠ类的特性提出了增强免疫原性的肽]中使用的两个数据集(http://www.ploscopbiol.org/article/info%3adoi%2f10.1371%2fjournal.pcbi.1003266\pcbi.1003266.s005)
-`hpv`:[人类乳头瘤病毒T细胞抗原数据库(http://cvc.dfcc.dvcI.C.CVCGIG/HPV/]):[动物毒素数据库]的毒性蛋白序列(http://PurcCim.HunnU.EdU.CN./毒素/)-BR/> -'DANAFARBER ]:[ Dana Farber医学免疫学知识库](http://Biop.dfcI.Hual.EdU/DFRMLI)/
-T-抗原:[肿瘤T细胞抗原]数据库](http://cvc.dfci.harvard.edu/tadb/)
-`hiv-frahm`:不同人种对hiv抗原表位的反应(来自[lanl-hiv数据库](http://www.hiv.lanl.gov/content/immunology/hlatem/study1/index.html))
-`cri-tumor-antigenses`:来自[cancer-immunity]的肿瘤相关肽(http://cancerimmunity.org/peptide/transitions/)
-` Fritsch_新表位`:Fritsch等人的突变和野生型肿瘤表位。[人类肿瘤新表位的hla结合特性](http://cancerimmunolres.aacrjournals.org/content/early/2014/03/01/2326-6066.cir-13-0227.abstract)
计划:
-`bcipep`:[b-细胞表位](http://www.imtech.res.in/raghava/bcipep/data.html)
表位,则只需要两个函数:
-`load撸uzzle`:返回一组氨基酸串
-`load撸uzzle撸rams`:数组,其行是转换成n-gram向量空间的氨基酸。
如果数据集包含有关表位的附加数据(如hla-u型或源蛋白):
-`load-wuzzle`:返回带有表位字符串和附加属性的数据帧
-`load-wuzzle`:表位氨基酸字符串集
-`load-wuzzle`grams`:行是转换成n-gram向量的氨基酸的数组空间。
ssay results),则应提供以下函数:
-`load_wuzzle`:从“wuzzle”数据集中加载所有可用的数据(通过“mhc_class”等选项筛选)。
-`加载初值':按表位字符串对数据集进行分组,并将每个表位与阳性结果的百分比相关联。
-`加载初吻类':将表位分成正类和负类,为每个表位返回一组字符串。
-`加载口吻`:将氨基酸串表示(或一些简化的字母表)转换成n克频率的向量,返回一对sklearn兼容的`(样本、标签)`数组。