转换和可视化显示不同参数对象分组变化的数据的最佳方法是什么？

2024-04-18 06:34:12 发布

您现在位置：Python中文网/ 问答频道 /正文

3637

网友

男 | 程序猿一只，喜欢编程写python代码。

我在数据科学/生物信息学问题上遇到了一些麻烦，我想从人们那里得到一些想法。这是我的第一篇帖子，我希望我问的问题是正确的

我有多个两列TSV文件，第一列是一个基因的名称，第二列是相似基因共享的家族编号：

+------+----------+
| Gene | Family # |
+------+----------+
| A    |        1 |
| B    |        1 |
| C    |        1 |
| D    |        2 |
| E    |        2 |
+------+----------+

在这种情况下，A B和C相似，D和E相似

现在，当我将相似性参数更改为更严格时，出现了这些新的分组（另一个虚构的示例）：

+------+----------+
| gene | family # |
+------+----------+
| A    | 15       |
| B    | 15       |
| C    | 17       |
| D    | 19       |
| E    | 40       |
| ...  | ...      |
+------+----------+

在这种情况下，A和B是相似的，但C D和E都是不同的

我拥有的族没有一致的族号，因此，即使它们在不同参数的同一个族中被考虑，族也是不同的

我希望能够看到这些不同参数对家庭组的影响。我有10个不同的参数要测试，这意味着我想看看族分组在10个TSV文件中是如何变化的

你知道什么是看待群体最有效的方法吗？也许直接用基因名替换家族（如下所示）是可行的，因为家族并不一致，但基因名是：

+------+-----------------+----------------+----------------+-----+
| gene | similar gene #1 | similar gene 2 | similar gene x | ... |
+------+-----------------+----------------+----------------+-----+
| A    | B               | C              |                | ... |
| B    | A               | C              |                | ... |
| C    | A               | B              |                | ... |
| D    |                 |                |                | ... |
| E    |                 |                |                | ... |
+------+-----------------+----------------+----------------+-----+

所以在一个特定的参数下，ab和C仍然相似，但D和E与其他任何东西都不相似

我将转换所有10个TSV文件以停止使用“家族”并替换为“相似基因”。这是个好主意吗

也许将这些TSV解析为R数据帧或将其导入SQL数据集可以工作？最终目标将是可视化这些网络，以及这些网络如何跨参数变化。现在让我无法接受的最大问题是，不同参数的族数不一致

任何帮助或讨论都将不胜感激

0条回答

目前没有回答

转换和可视化显示不同参数对象分组变化的数据的最佳方法是什么？

相关问题更多 >

编程相关推荐

热门问题

热门文章

转换和可视化显示不同参数对象分组变化的数据的最佳方法是什么？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >