将水平对齐的文本文件解析为DataFrame

ID #16-15 AC CVCL_KA96 DR RCB; RCB4635 DR Wikidata; Q54422067 RX PubMed=25400923; CC Monoclonal antibody isotype: IgM. CC Monoclonal antibody target: UniProtKB; Q5T5X7; Human BEND3. OX NCBI_TaxID=10090; ! Mus musculus OX NCBI_TaxID=10116; ! Rattus norvegicus HI CVCL_4032 ! P3X63Ag8.653 CA Hybridoma DT Created: 22-08-17; Last updated: 07-09-18; Version: 2 //

1条回答

网友

1楼 · 发布于 2024-05-16 01:49:06

这就是你要找的吗

我在没有pandas的情况下完成了这项工作，但是基于问题中的文件示例的输出与您期望的类似

import csv
import itertools
from collections import defaultdict

with open("sample.txt") as f:
    lines = f.readlines()

lines = [l.strip().split('   ') for l in lines if l != '//']

data = defaultdict(list)

for line in lines:
    key, values, = line
    data[key].append(''.join([v for v in values.split(";")]))

with open("test.csv", "w") as outfile:
    writer = csv.writer(outfile)
    writer.writerow(data.keys())
    writer.writerows(itertools.zip_longest(*data.values()))

输出：

编辑：使用pandas

import pandas as pd


codes = [
    'ID', 'AC', 'AS', 'SY', 'DR', 'RX', 'WW', 'CC', 'ST', 'DI', 'OX', 'HI',
    'OI', 'SX', 'AG', 'CA', 'DT',
]


with open("sample.txt") as f:
    lines = f.readlines()

lines = [l.strip().split('   ') for l in lines if l != '//']
print(lines)

data = {c: [] for c in codes}

for line in lines:
    key, values, = line
    data[key].append(''.join([v for v in values.split(";")]))


df = pd.DataFrame.from_dict(data, orient='index').transpose()
df.to_csv("test_2.csv", index=False)

相关问题更多 >

编程相关推荐

热门问题

热门文章

将水平对齐的文本文件解析为DataFrame

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >