如何从.vcf文件中删除有害的制表符/新行?

2024-04-20 12:15:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理vcf文件。我试图从该文件中提取信息,但该文件的格式有错误。你知道吗

此文件中有一列包含长字符串。错误是,许多制表符和一个新行字符错误地放置在此列的某些行中。所以当我试图读入这个以制表符分隔的文件时,所有的列都被弄乱了。你知道吗

我知道如何解决这个问题,但不知道如何在代码中执行它。字符串是DNA,所以总是有ATCG。基本上,如果可以在ATCG字符中查找多个制表符和换行符并将其删除,则该文件是固定的:

ACTGCTGA\t\t\t\t\nCTGATCGA将变成: ACTGCTGATGATCGA公司

所以需要查看这个文件,查找[ACTG],后跟制表符或换行符,后跟更多的[ACTG],然后将其替换为空。你知道怎么做吗?你知道吗

with open(file.vcf, 'r') as f:
    lines = [l for l in f if not l.startswith('##')]

Tags: 文件字符串代码信息格式错误字符制表符