我有6个文本文件(每个文件对应一个特定的示例),每个文件如下所示:
Gene_ID Gene_Name Strand Start End Length Coverage FPKM TPM
ENSMUSG00000102735 Gm7369 + 4610471 4611406 936 0 0 0
ENSMUSG00000025900 Rp1 - 4290846 4409241 10926 0 0 0
ENSMUSG00000104123 Gm37483 - 4363346 4364829 1484 0 0 0
ENSMUSG00000102175 Gm6119 - 4692219 4693424 1206 0.328358 0.015815 0.008621
我想收集一个文件中1列和2列中的所有元素,以及新文件中每个示例对应的tpm值(第9列),因此在没有tpm值的地方输入0。你知道吗
我的输出文件应如下所示:
gene_id gene_name sample1_tpm sample2_tpm sample3_tpm ......sample6_tpm
一种方法是保留一个字典来存储每个基因id的样本值
初始化字典={}
遍历6个文件中的每个文件并执行以下操作:
这将存储键作为gene\u id和name,sample(6个sample\u id的列表)作为值。你知道吗
现在只需遍历键和值就可以写入输出文件。你知道吗
相关问题 更多 >
编程相关推荐