我想把一个两列的文件转换成一个0和1的表,以便准备PCA(主成分分析)。输入文件由第一列中的细菌名称和第二列中的细菌描述符组成。在
可能的方法:将输入文件存储在散列中,然后对每列执行某种uniq命令,并将它们添加到输出文件中。最后,对于输出文件中的每个组合,如果在文件1哈希中找到细菌名称和描述符,则添加0或1。在
输入文件(制表符分隔):
bacteria_1 protein:plasmid:149679
bacteria_1 protein:proph:183386
bacteria_2 protein:proph:183386
bacteria_3 protein:plasmid:147856
bacteria_3 protein:proph:183386
所需输出(制表符分隔):
^{pr2}$
快速
python
脚本:输出:
^{pr2}$以下是
GNU awk
的一种方法:下面是一个正则
^{pr2}$awk
的解决方案:相关问题 更多 >
编程相关推荐