与iedb和其他免疫表位数据的python接口

epitopes的Python项目详细描述


表位
==


计算免疫学的一个重要方面是模拟[肽]的特性(http://en.wikipedia.org/wiki/peptide)(氨基酸短串)。肽可以作为子串[剪切](http://en.wikipedia.org/wiki/proteopolysis)从更大的蛋白质中产生,自然产生的[小蛋白质](http://en.wikipedia.org/wiki/alpha amanitin),或者被[合成](micchm01.u.hpc.mssm.edu/dashboard/accounts/activate/e2b4804ac4d7e59dcff89a474d1971b8a36dff77/
)用于治疗目的。
做出有用的预测(即“疫苗中应该含有哪些肽?”)我们需要将肽的组合空间划分为[表位](http://en.wikipedia.org/wiki/depitepe)和非表位(肽是由[mhc分子](http://en.wikipedia.org/wiki/major\u histocompatibility)呈现的吗?)或[免疫原性](http://en.wikipedia.org/wiki/immunogenicity)与非免疫原性(do[白细胞](http://en.wikipedia.org/wiki/lyclets)应答?)捕捉这种区别的一种方法是收集大量有关肽的数据,并利用这些数据建立其免疫特性的统计模型。这个库通过向常用的免疫学和生物信息学数据集提供简单的python/numpy/pandas接口来帮助您构建这样的模型。

**数据源**

-`iedb`:[免疫表位数据库](http://www.iedb.org)。mhc结合和t细胞/b细胞反应的大量表位分析结果
-`tcga':从[tcga]提取的变异肽子串(http://en.wikipedia.org/wiki/the_cancer_genome_atlas)跨所有癌症类型的突变
-`reference':从[human reference protein]提取的肽子串序列](ftp://ftp.ensembl.org/pub/release-75/fasta/homo-sapiens/pep/)
-`imma2`:tung等人使用的imma2表位免疫原性与非免疫原性数据集。用于评估[popisk](http://www.biomedcentral.com/1471-2105/12/446)免疫原性预测因子
-`calis`:calis等人的[mhcⅠ类的特性提出了增强免疫原性的肽]中使用的两个数据集(http://www.ploscopbiol.org/article/info%3adoi%2f10.1371%2fjournal.pcbi.1003266\pcbi.1003266.s005)
-`hpv`:[人类乳头瘤病毒T细胞抗原数据库(http://cvc.dfcc.dvcI.C.CVCGIG/HPV/]):[动物毒素数据库]的毒性蛋白序列(http://PurcCim.HunnU.EdU.CN./毒素/)-BR/> -'DANAFARBER ]:[ Dana Farber医学免疫学知识库](http://Biop.dfcI.Hual.EdU/DFRMLI)/
-T-抗原:[肿瘤T细胞抗原]数据库](http://cvc.dfci.harvard.edu/tadb/)
-`hiv-frahm`:不同人种对hiv抗原表位的反应(来自[lanl-hiv数据库](http://www.hiv.lanl.gov/content/immunology/hlatem/study1/index.html))
-`cri-tumor-antigenses`:来自[cancer-immunity]的肿瘤相关肽(http://cancerimmunity.org/peptide/transitions/)
-` Fritsch_新表位`:Fritsch等人的突变和野生型肿瘤表位。[人类肿瘤新表位的hla结合特性](http://cancerimmunolres.aacrjournals.org/content/early/2014/03/01/2326-6066.cir-13-0227.abstract)


计划:

-`bcipep`:[b-细胞表位](http://www.imtech.res.in/raghava/bcipep/data.html)




表位,则只需要两个函数:
-`load撸uzzle`:返回一组氨基酸串
-`load撸uzzle撸rams`:数组,其行是转换成n-gram向量空间的氨基酸。

如果数据集包含有关表位的附加数据(如hla-u型或源蛋白):
-`load-wuzzle`:返回带有表位字符串和附加属性的数据帧
-`load-wuzzle`:表位氨基酸字符串集
-`load-wuzzle`grams`:行是转换成n-gram向量的氨基酸的数组空间。

ssay results),则应提供以下函数:
-`load_wuzzle`:从“wuzzle”数据集中加载所有可用的数据(通过“mhc_class”等选项筛选)。
-`加载初值':按表位字符串对数据集进行分组,并将每个表位与阳性结果的百分比相关联。
-`加载初吻类':将表位分成正类和负类,为每个表位返回一组字符串。
-`加载口吻`:将氨基酸串表示(或一些简化的字母表)转换成n克频率的向量,返回一对sklearn兼容的`(样本、标签)`数组。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java根据两个数组的值对数组进行排序   具有自签名证书和NTLM代理的java Maven SSL repo错误   java自定义字体按钮不工作AndroidStudio   java通过Spring MVC web应用程序向客户端发送文本文件   Java Spring Web服务SOAP身份验证   ANT property environment=“env”无法在JAVA中检索它,但如果作为ANT命令运行,则可以正常工作   java是为spring mvc rest api或spring boot api对应用服务器的每个新请求创建的服务、存储库和组件的新实例吗?   java私有静态最终字符串未完成其工作   PKCS12的安全Java密钥重新处理   java JPA继承表每类SQLSyntaxErrorException