Pandas DataFram中行和列的元数据

2024-05-31 23:16:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个很大的遗传数据矩阵,每个人的单核苷酸多态性,值在0,1,2。个人和snp都有一些相关的元数据。例如

individuals might have sex, ancestry, age, doctor, etc.
SNPs have chromosome, position, mutation type, etc.

元数据没有层次结构。我想把它组织成一个数据帧这样我就可以

  1. 轻松过滤元数据值(例如年龄在18到65岁之间)
  2. 仍然以整数指数自然地引用遗传数据(例如。iloc[0,0]或df值[0,0]是第一个单核苷酸多态性的第一个个体的基因型。)

对熊猫来说这是可能的吗?在

组织数据的自然方式是什么?在


Tags: 数据agehaveetc矩阵核苷酸mightdoctor
1条回答
网友
1楼 · 发布于 2024-05-31 23:16:39

我不确定你的专业水平是基于这个问题,但我先看一下关于熊猫的docs。在

听起来像是将个人作为行,将snp作为列;我还假设您将两个数据帧按每个个体的唯一标识符编入索引。如果您有第二个数据框,其中包含具有相同索引的临床数据,则可以使用以下行将它们组合起来:

import pandas as pd
pd.merge(snp_df, clinical_df, how='inner', left_index=True, right_index=True)

这将只给你完整的数据;如果你想包括没有临床数据的个体,把参数改为how=left,这样你就可以保存每个你有基因数据的个体。在

为了根据snp的一些信息进行过滤,我会做如下操作:

^{pr2}$

您也可以使用pandas数据帧上的操作来执行上述操作。在

相关问题 更多 >