我有以下形式的一个实验的数据,每个实验和治疗都重复进行,命中的是与特定事件相关的基因:
experiment treatment replicate hit
1 1 1 gene1
1 1 1 gene2
1 1 1 gene1
1 1 1 gene1
1 1 2 gene1
1 1 2 gene1
1 2 1 gene1
1 2 1 gene2
1 2 2 gene2
1 2 2 gene2
我要做的是计算治疗中每个基因的平均计数。在
我可以用value_counts()
得到每个实验的基因计数:
产生如下输出:
experiment treatment replicate gene1 gene2
1 1 1 3 1
1 1 2 2 NA
1 2 1 1 1
1 2 2 NA 2
但我真正想要的是每次治疗的平均计数,所以(假设NA替换为0):
experiment treatment gene1 gene2
1 1 2.5 0.5
1 2 0.5 1.5
有什么想法吗?将.mean()
应用于值计数似乎可以计算出所有列的平均值,而不是每个复制。在
您也可以使用被低估的
pd.get_dummies
:拿着你的桌子,再做一次分组:
您将得到一个额外的无意义列,它是复制数的平均值,但您可以将其丢弃。在
相关问题 更多 >
编程相关推荐