我正在处理txt文件中的数据,这些数据是水平对齐的,我希望将其对齐到列中,例如在DataFrame中
每行开头的大写代码(ID、AC等)应为列名。在提供的示例中有更多的代码,当对象没有特定代码的信息时,它应该为空
每个对象由//
分隔。
所有代码的列表:['ID', 'AC', 'AS', 'SY', 'DR', 'RX', 'WW', 'CC', 'ST', 'DI', 'OX', 'HI', 'OI', 'SX', 'AG', 'CA', 'DT']
问题是有些代码会多次出现,比如CC或OX。我试图将其放入dataframe并转置,但老实说,我一直在研究如何将列与文本文件中的适当元素相匹配,以及当实体没有特定代码的信息时该怎么办
ID #16-15
AC CVCL_KA96
DR RCB; RCB4635
DR Wikidata; Q54422067
RX PubMed=25400923;
CC Monoclonal antibody isotype: IgM.
CC Monoclonal antibody target: UniProtKB; Q5T5X7; Human BEND3.
OX NCBI_TaxID=10090; ! Mus musculus
OX NCBI_TaxID=10116; ! Rattus norvegicus
HI CVCL_4032 ! P3X63Ag8.653
CA Hybridoma
DT Created: 22-08-17; Last updated: 07-09-18; Version: 2
//
这就是你要找的吗
我在没有
pandas
的情况下完成了这项工作,但是基于问题中的文件示例的输出与您期望的类似输出:
编辑:使用
pandas
相关问题 更多 >
编程相关推荐