Pandas DataFram中行和列的元数据 - 问答 - Python中文网

Pandas DataFram中行和列的元数据

2024-05-31 23:16:39 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个很大的遗传数据矩阵，每个人的单核苷酸多态性，值在0，1，2。个人和snp都有一些相关的元数据。例如

individuals might have sex, ancestry, age, doctor, etc.
SNPs have chromosome, position, mutation type, etc.

元数据没有层次结构。我想把它组织成一个数据帧这样我就可以

轻松过滤元数据值（例如年龄在18到65岁之间）
仍然以整数指数自然地引用遗传数据（例如。iloc[0，0]或df值[0，0]是第一个单核苷酸多态性的第一个个体的基因型。）

对熊猫来说这是可能的吗？在

组织数据的自然方式是什么？在

Tags：数据 age have etc 矩阵核苷酸 might doctor

1条回答

网友

1楼 · 发布于 2024-05-31 23:16:39

我不确定你的专业水平是基于这个问题，但我先看一下关于熊猫的docs。在

听起来像是将个人作为行，将snp作为列；我还假设您将两个数据帧按每个个体的唯一标识符编入索引。如果您有第二个数据框，其中包含具有相同索引的临床数据，则可以使用以下行将它们组合起来：

import pandas as pd
pd.merge(snp_df, clinical_df, how='inner', left_index=True, right_index=True)

这将只给你完整的数据；如果你想包括没有临床数据的个体，把参数改为how=left，这样你就可以保存每个你有基因数据的个体。在

为了根据snp的一些信息进行过滤，我会做如下操作：

^{pr2}$

您也可以使用pandas数据帧上的操作来执行上述操作。在

相关问题更多 >

编程相关推荐

热门问题

热门文章