与iedb和其他免疫表位数据的python接口

epitopes的Python项目详细描述


表位
==


计算免疫学的一个重要方面是模拟[肽]的特性(http://en.wikipedia.org/wiki/peptide)(氨基酸短串)。肽可以作为子串[剪切](http://en.wikipedia.org/wiki/proteopolysis)从更大的蛋白质中产生,自然产生的[小蛋白质](http://en.wikipedia.org/wiki/alpha amanitin),或者被[合成](micchm01.u.hpc.mssm.edu/dashboard/accounts/activate/e2b4804ac4d7e59dcff89a474d1971b8a36dff77/
)用于治疗目的。
做出有用的预测(即“疫苗中应该含有哪些肽?”)我们需要将肽的组合空间划分为[表位](http://en.wikipedia.org/wiki/depitepe)和非表位(肽是由[mhc分子](http://en.wikipedia.org/wiki/major\u histocompatibility)呈现的吗?)或[免疫原性](http://en.wikipedia.org/wiki/immunogenicity)与非免疫原性(do[白细胞](http://en.wikipedia.org/wiki/lyclets)应答?)捕捉这种区别的一种方法是收集大量有关肽的数据,并利用这些数据建立其免疫特性的统计模型。这个库通过向常用的免疫学和生物信息学数据集提供简单的python/numpy/pandas接口来帮助您构建这样的模型。

**数据源**

-`iedb`:[免疫表位数据库](http://www.iedb.org)。mhc结合和t细胞/b细胞反应的大量表位分析结果
-`tcga':从[tcga]提取的变异肽子串(http://en.wikipedia.org/wiki/the_cancer_genome_atlas)跨所有癌症类型的突变
-`reference':从[human reference protein]提取的肽子串序列](ftp://ftp.ensembl.org/pub/release-75/fasta/homo-sapiens/pep/)
-`imma2`:tung等人使用的imma2表位免疫原性与非免疫原性数据集。用于评估[popisk](http://www.biomedcentral.com/1471-2105/12/446)免疫原性预测因子
-`calis`:calis等人的[mhcⅠ类的特性提出了增强免疫原性的肽]中使用的两个数据集(http://www.ploscopbiol.org/article/info%3adoi%2f10.1371%2fjournal.pcbi.1003266\pcbi.1003266.s005)
-`hpv`:[人类乳头瘤病毒T细胞抗原数据库(http://cvc.dfcc.dvcI.C.CVCGIG/HPV/]):[动物毒素数据库]的毒性蛋白序列(http://PurcCim.HunnU.EdU.CN./毒素/)-BR/> -'DANAFARBER ]:[ Dana Farber医学免疫学知识库](http://Biop.dfcI.Hual.EdU/DFRMLI)/
-T-抗原:[肿瘤T细胞抗原]数据库](http://cvc.dfci.harvard.edu/tadb/)
-`hiv-frahm`:不同人种对hiv抗原表位的反应(来自[lanl-hiv数据库](http://www.hiv.lanl.gov/content/immunology/hlatem/study1/index.html))
-`cri-tumor-antigenses`:来自[cancer-immunity]的肿瘤相关肽(http://cancerimmunity.org/peptide/transitions/)
-` Fritsch_新表位`:Fritsch等人的突变和野生型肿瘤表位。[人类肿瘤新表位的hla结合特性](http://cancerimmunolres.aacrjournals.org/content/early/2014/03/01/2326-6066.cir-13-0227.abstract)


计划:

-`bcipep`:[b-细胞表位](http://www.imtech.res.in/raghava/bcipep/data.html)




表位,则只需要两个函数:
-`load撸uzzle`:返回一组氨基酸串
-`load撸uzzle撸rams`:数组,其行是转换成n-gram向量空间的氨基酸。

如果数据集包含有关表位的附加数据(如hla-u型或源蛋白):
-`load-wuzzle`:返回带有表位字符串和附加属性的数据帧
-`load-wuzzle`:表位氨基酸字符串集
-`load-wuzzle`grams`:行是转换成n-gram向量的氨基酸的数组空间。

ssay results),则应提供以下函数:
-`load_wuzzle`:从“wuzzle”数据集中加载所有可用的数据(通过“mhc_class”等选项筛选)。
-`加载初值':按表位字符串对数据集进行分组,并将每个表位与阳性结果的百分比相关联。
-`加载初吻类':将表位分成正类和负类,为每个表位返回一组字符串。
-`加载口吻`:将氨基酸串表示(或一些简化的字母表)转换成n克频率的向量,返回一对sklearn兼容的`(样本、标签)`数组。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在通配符泛型类型和泛型类型之间未经检查的强制转换   java Eclipse SWT Hello world教程:无法将显示解析为类型   java如何向远程用户发送注销消息?   java RDD之后的空文件是什么。保存ASTEXTFILE?   用户界面在java中创建一个htmljs UI GCalendar   Java多个哈希映射指向同一个键   Java Dowhile循环不工作?   oraclejava类。组织。阿帕奇。梁sdk。util。UserCodeException:java。sql。SQLException:无法创建PoolableConnectionFactory   java是org类型。日食用户界面。文本编辑器。*看不见   java有没有从弹出窗口复制eclipse中变量值的插件或快捷方式?   java getSubimage为我提供了期望值null   java我想让它变得更简单   swing AWTEventQueue0一直在运行,java中的程序变得非常慢   java Solr实例化类时出错:自定义类   java将ListView适配器移植到RecyclerView适配器   c#测试混合web和桌面应用程序的安全性