我想用数据框中的以下字段将信息从txt文件提取到dataframe
1) GENEINFO
2) ID
3) POS
4) ALT
5) CLNSIG
6) CLNDN
我编写了以下代码,试图从文件中获取信息,但不知道如何继续。你能帮我介绍一些做那件事的想法吗
import io
import os
import pandas as pd
def read_vcf(path):
with open('clinvar_final.txt', 'r') as f:
lines = [l for l in f if not l.startswith('##')]
return pd.read_csv(
io.StringIO(''.join(lines)),
dtype={'#CHROM': str, 'POS': int, 'ID': str, 'REF': str, 'ALT': str,
'QUAL': str, 'FILTER': str, 'INFO': str},
sep='\t'
).rename(columns={'#CHROM': 'CHROM'})
你可以阅读它
在这之后,您将有一个tabel,其中包含列2)
ID
3)POS
4)ALT
给予
其他信息(1)
GENEINFO
5)CLNSIG
6)CLNDN
)作为一个字符串在列INFO
中,您可以使用regex
将它们添加到分隔的列中结果
相关问题 更多 >
编程相关推荐