转换和可视化显示不同参数对象分组变化的数据的最佳方法是什么?

2024-04-18 06:34:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我在数据科学/生物信息学问题上遇到了一些麻烦,我想从人们那里得到一些想法。这是我的第一篇帖子,我希望我问的问题是正确的

我有多个两列TSV文件,第一列是一个基因的名称,第二列是相似基因共享的家族编号:

+------+----------+
| Gene | Family # |
+------+----------+
| A    |        1 |
| B    |        1 |
| C    |        1 |
| D    |        2 |
| E    |        2 |
+------+----------+

在这种情况下,A B和C相似,D和E相似

现在,当我将相似性参数更改为更严格时,出现了这些新的分组(另一个虚构的示例):

+------+----------+
| gene | family # |
+------+----------+
| A    | 15       |
| B    | 15       |
| C    | 17       |
| D    | 19       |
| E    | 40       |
| ...  | ...      |
+------+----------+

在这种情况下,A和B是相似的,但C D和E都是不同的

我拥有的族没有一致的族号,因此,即使它们在不同参数的同一个族中被考虑,族也是不同的

我希望能够看到这些不同参数对家庭组的影响。我有10个不同的参数要测试,这意味着我想看看族分组在10个TSV文件中是如何变化的

你知道什么是看待群体最有效的方法吗?也许直接用基因名替换家族(如下所示)是可行的,因为家族并不一致,但基因名是:

+------+-----------------+----------------+----------------+-----+
| gene | similar gene #1 | similar gene 2 | similar gene x | ... |
+------+-----------------+----------------+----------------+-----+
| A    | B               | C              |                | ... |
| B    | A               | C              |                | ... |
| C    | A               | B              |                | ... |
| D    |                 |                |                | ... |
| E    |                 |                |                | ... |
+------+-----------------+----------------+----------------+-----+

所以在一个特定的参数下,ab和C仍然相似,但D和E与其他任何东西都不相似

我将转换所有10个TSV文件以停止使用“家族”并替换为“相似基因”。这是个好主意吗

也许将这些TSV解析为R数据帧或将其导入SQL数据集可以工作?最终目标将是可视化这些网络,以及这些网络如何跨参数变化。现在让我无法接受的最大问题是,不同参数的族数不一致

任何帮助或讨论都将不胜感激