我的代码有问题,我试图读取一个fasta文件,即“chr1.fa”,然后我有一个类似这样的变异文件
chr1 822979 822980 CLL6.08_1_snv 88.2 +
chr1 1052781 1052782 CLL6.08_2_snv 388.9 +
chr1 1216196 1216197 CLL6.08_3_snv 625 +
chr1 5053847 5053848 CLL6.08_4_snv 722.2 +
chr1 5735093 5735094 CLL6.08_5_snv 138.9 +
这是一个以制表符分隔的文件,chr1作为第一列,+作为最后一列。我想在chr1.fa文件中插入一个N,使用第二个专栏。我的代码看起来像这样
^{pr2}$我得到这样的输出
Enter UCSC fasta file of human genome:chr1.fa
chr1
Length of the chromosome is: 249250622
No. of N in the chromosome are: 23970000
Here is my mutaiton file data
length : 249250622
File cannot be opened, wrong format you forgot something:
我们可以通过直接输入以下命令来下载chr1.fa
rsync -avzP
rsync://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr1.fa.gz .
不知怎么的,我不能在序列中插入N,也不能编写新的序列。 如果有任何对改进代码有价值的建议,我将很高兴:)
您可能在查找文件目录和打开文件时遇到一些问题。也就是说,一旦你有了文件数据,你的工作就相对容易了。您需要读入fasta文件,删除头并将其转换为一个列表,然后简单地将变异文件中的索引替换为“N”,然后重新创建fasta。步骤如下:
为了让你的生活更轻松一点,你可以考虑用Biopython来阅读你的fasta并进行转换。在
以下是一些帮助您入门的文档http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc16
这是一些入门代码。在
相关问题 更多 >
编程相关推荐