2024-05-31 23:16:39 发布
网友
我有一个很大的遗传数据矩阵,每个人的单核苷酸多态性,值在0,1,2。个人和snp都有一些相关的元数据。例如
individuals might have sex, ancestry, age, doctor, etc. SNPs have chromosome, position, mutation type, etc.
元数据没有层次结构。我想把它组织成一个数据帧这样我就可以
对熊猫来说这是可能的吗?在
组织数据的自然方式是什么?在
我不确定你的专业水平是基于这个问题,但我先看一下关于熊猫的docs。在
听起来像是将个人作为行,将snp作为列;我还假设您将两个数据帧按每个个体的唯一标识符编入索引。如果您有第二个数据框,其中包含具有相同索引的临床数据,则可以使用以下行将它们组合起来:
import pandas as pd pd.merge(snp_df, clinical_df, how='inner', left_index=True, right_index=True)
这将只给你完整的数据;如果你想包括没有临床数据的个体,把参数改为how=left,这样你就可以保存每个你有基因数据的个体。在
how=left
为了根据snp的一些信息进行过滤,我会做如下操作:
您也可以使用pandas数据帧上的操作来执行上述操作。在
我不确定你的专业水平是基于这个问题,但我先看一下关于熊猫的docs。在
听起来像是将个人作为行,将snp作为列;我还假设您将两个数据帧按每个个体的唯一标识符编入索引。如果您有第二个数据框,其中包含具有相同索引的临床数据,则可以使用以下行将它们组合起来:
这将只给你完整的数据;如果你想包括没有临床数据的个体,把参数改为
how=left
,这样你就可以保存每个你有基因数据的个体。在为了根据snp的一些信息进行过滤,我会做如下操作:
^{pr2}$您也可以使用pandas数据帧上的操作来执行上述操作。在
相关问题 更多 >
编程相关推荐