使用键(python)和duplicate合并两个表的最快方法

2024-06-07 00:31:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图找到一种更好、更好的方法,基于一列合并到表中,但该列包含多个值,并且可以重复(我需要获得重复项) 表格如下:

table annot : 
     contig      start        end                 motif                                               gene      region  num_anc_irrs  norm_num_anc_irrs  het_str_size
0      chr2   70839045   70839046  AAAAAAAAAAAAAAAAAAAC                  TGFA(dist=58087),ADD2(dist=44870)  intergenic             1               0.94             7
1     chr18   62410566   62410567  AAAAAAAAAAAAAAAAAAAC          LINC01924(dist=319739),CDH7(dist=1006921)  intergenic             1               0.94             7
2     chr19   17744455   17744456  AAAAAAAAAAAAAAAAAAAC                                             UNC13A    intronic             1               0.94             7
3      chr4   32563995   32563996  AAAAAAAAAAAAAAAAAAAT  LINC02353(dist=209153),LOC101928622(dist=1333965)  intergenic             1               0.94             7

table omim :
                                              Phenotype                             gene      OMIM  Location
0          17,20-lyase deficiency, isolated, 202110 (3)          CYP17A1, CYP17, P450C17  609300.0  10q24.32
1     17-alpha-hydroxylase/17,20-lyase deficiency, 2...          CYP17A1, CYP17, P450C17  609300.0  10q24.32
2      2,4-dienoyl-CoA reductase deficiency, 616034 (3)            NADK2, C5orf33, DECRD  615787.0    5p13.2
3        2-aminoadipic 2-oxoadipic aciduria, 204750 (3)  DHTKD1, KIAA1630, AMOXAD, CMT2Q  614984.0     10p14

我想在“gene”上合并,只需将列表型的(可能的多个)值添加到annot表中。如果表型有多个值,则将所有值加上“,”分隔

要得到这样的东西:

0      chr2   70839045   70839046  AAAAAAAAAAAAAAAAAAAC   TGFA(dist=58087),ADD2(dist=44870)  intergenic   1   0.94  7  2-aminoadipic 2-oxoadipic aciduria, 204750 (3), 2,4-dienoyl-CoA reductase deficiency, 616034 (3)

当然我可以用听写器来做,但是有更好的方法吗? 谢谢:)


Tags: 方法disttablenumgeneannotchr2add2