抗原受体分类器
bio-arc的Python项目详细描述
ARC(抗原受体分类)
作者:Austin Crinklaw,Swapnil Mahajan
要求:
- Linux操作系统
- HMMER3
- NCBI爆炸+
- Python3+
- python包:pandas,biopython
安装:
为了便于使用,我们提供了一个dockerfile。
也可以使用下面的pip命令通过pypi下载arc。
pip install bio-arc
用法:
输入
- 包含一个或多个蛋白质序列的fasta格式文件。
>1WBZ_A_alpha I H2-Kb
MVPCTLLLLLAAALAPTQTRAGPHSLRYFVTAVSRPGLGEPRYMEVGYVDDTEFVRFDSDAENPRYEPRARWMEQEGPEYWERETQKAKGNEQSFRVDLRTLLGYYNQSKGGSHTIQVISGCEVGSDGRLLRGYQQYAYDGCDYIALNEDLKTWTAADMAALITKHKWEQAGEAERLRAYLEGTCVEWLRRYLKNGNATLLRTDSPKAHVTHHSRPEDKVTLRCWALGFYPADITLTWQLNGEELIQDMELVETRPAGDGTFQKWASVVVPLGKEQYYTCHVYHQGLPEPLTLRWEPPPSTVSNMATVAVLVVLGAAIVTGAVVAFVMKMRRRNTGGKGGDYALAPGSQTSDLSLPDCKVMVHDPHSLA
>1WBZ_B_b2m I H2-Kb
MARSVTLVFLVLVSLTGLYAIQKTPQIQVYSRHPPENGKPNILNCYVTQFHPPHIEIQMLKNGKKIPKVEMSDMSFSKDWSFYILAHTEFTPTETDTYACRVKHASMAEPKTVYWDRDM
命令
- 使用fasta文件作为输入:
python -m ARC classify -i /path/to/input.fasta -o /path/to/output.csv
输出
- 输出文件有4列csv格式。
- 名为“id”的第一列是在fasta中为每个序列提供的描述。
- 第二列“类”是每个序列的指定分子类。
- 例如,MHC-I、MHC-II、BCR或TCR。
- 名为“chain_type”的第三列是为每个序列分配的链类型。
- 例如α、β、重、lambda、kappa、单链抗体、tscfv或结构物。这些也将被标记为变量域的v或常数域的c。
- 第四列名为‘calc_-mhc_等位基因’是利用与mro等位基因的沟域相似性识别出的mhc等位基因。
ID | class | chain_type | calc_mhc_allele |
---|---|---|---|
1WBY_A_alpha I H2-Db | MHC-I | alpha V | |
1WBY_B_b2m I H2-Db | |||
1HQR_A_alpha II HLA-DRA01:01/DRB501:01 | MHC-II | alpha C | HLA-DRA*01:01 |
1HQR_B_beta II HLA-DRA01:01/DRB501:01 | MHC-II | beta C | HLA-DRB5*01:01 |
2CMR_H_heavy | BCR | heavy V | |
2CMR_L_light | BCR | kappa C | |
4RFO_L_light | BCR | lambda V | |
3UZE_A_heavy | BCR | scFv | |
1FYT_D_alpha | TCR | alpha V | |
1FYT_E_beta | TCR | beta C | |
3TF7_C_alpha | TCR | TscFv |
工作原理:
- bcr和tcr链用hmms识别。根据imgt的bcr和tcr链序列构建的hmms搜索给定的蛋白质序列。hmmer用于将输入序列与hmms对齐。
- mhc一级(alpha1-alpha2域)和mhc一级alpha和beta链hmm从pfam网站下载。根据这些hmm搜索输入蛋白质序列。hmmer比特评分阈值为25用于识别mhc链序列。 -为了识别mhc等位基因,每次运行脚本时都会下载mro存储库。Groove域(G域)被分配给新的MRO Allles并存储在CSV文件中。如果这个文件不存在,那么G域被分配给所有的MRO等位基因(这可能会减慢脚本)。
参考文献:
几种hmmer结果分析方法来自anarci。