我得到了一个FASTA格式的文件(比如来自这个网站:http://www.uniprot.org/proteomes/),它给出了特定细菌内的各种蛋白质编码序列。我被要求给出一个完整的计数和文件中包含的每个单一编码氨基酸的相对百分比,并返回如下结果:
L: 139002 (10.7%)
A: 123885 (9.6%)
G: 95475 (7.4%)
V: 91683 (7.1%)
I: 77836 (6.0%)
到目前为止我所拥有的:
^{pr2}$我相信这样做是检索所有大写字母的实例,而不仅仅是蛋白质氨基酸字符串中包含的那些,我如何才能将其限制在编码序列中?我也有困难写如何计算每一个代码的总数
只有不包含以
>
开头的内容的行忽略这些:你也可以使用集合。计数器dict as the lines only contain what you interest in the lines:
^{pr2}$使用Counter可以使它更容易一些,并且避免使用字典(我喜欢dicts,但是在本例中,
Counter
确实有意义)。在由于
^{pr2}$Counter
接受ITerable,因此应该可以使用生成器来完成:你是正确的,你正在接近这一点,你将计数字符的实例,无论他们在哪里,甚至在描述行。在
但是你的代码甚至不能运行,你试过了吗?你有线.分割()但行未定义(以及许多其他错误)。另外,你已经在按字串“你正在按字串”。在
一种简单的方法是读入文件,在换行符上拆分,跳过以“>;”开头的行,汇总您关心的每个字符的数量,并保持所有分析过的字符的运行总数。在
相关问题 更多 >
编程相关推荐