我正在处理vcf文件。我试图从该文件中提取信息,但该文件的格式有错误。你知道吗
此文件中有一列包含长字符串。错误是,许多制表符和一个新行字符错误地放置在此列的某些行中。所以当我试图读入这个以制表符分隔的文件时,所有的列都被弄乱了。你知道吗
我知道如何解决这个问题,但不知道如何在代码中执行它。字符串是DNA,所以总是有ATCG。基本上,如果可以在ATCG字符中查找多个制表符和换行符并将其删除,则该文件是固定的:
ACTGCTGA\t\t\t\t\nCTGATCGA将变成: ACTGCTGATGATCGA公司
所以需要查看这个文件,查找[ACTG],后跟制表符或换行符,后跟更多的[ACTG],然后将其替换为空。你知道怎么做吗?你知道吗
with open(file.vcf, 'r') as f:
lines = [l for l in f if not l.startswith('##')]
正则表达式有一种方法:
首先在以下位置读取文件:
然后编写一个包含更改的新文件:
相关问题 更多 >
编程相关推荐