我在数据科学/生物信息学问题上遇到了一些麻烦,我想从人们那里得到一些想法。这是我的第一篇帖子,我希望我问的问题是正确的
我有多个两列TSV文件,第一列是一个基因的名称,第二列是相似基因共享的家族编号:
+------+----------+
| Gene | Family # |
+------+----------+
| A | 1 |
| B | 1 |
| C | 1 |
| D | 2 |
| E | 2 |
+------+----------+
在这种情况下,A B和C相似,D和E相似
现在,当我将相似性参数更改为更严格时,出现了这些新的分组(另一个虚构的示例):
+------+----------+
| gene | family # |
+------+----------+
| A | 15 |
| B | 15 |
| C | 17 |
| D | 19 |
| E | 40 |
| ... | ... |
+------+----------+
在这种情况下,A和B是相似的,但C D和E都是不同的
我拥有的族没有一致的族号,因此,即使它们在不同参数的同一个族中被考虑,族也是不同的
我希望能够看到这些不同参数对家庭组的影响。我有10个不同的参数要测试,这意味着我想看看族分组在10个TSV文件中是如何变化的
你知道什么是看待群体最有效的方法吗?也许直接用基因名替换家族(如下所示)是可行的,因为家族并不一致,但基因名是:
+------+-----------------+----------------+----------------+-----+
| gene | similar gene #1 | similar gene 2 | similar gene x | ... |
+------+-----------------+----------------+----------------+-----+
| A | B | C | | ... |
| B | A | C | | ... |
| C | A | B | | ... |
| D | | | | ... |
| E | | | | ... |
+------+-----------------+----------------+----------------+-----+
所以在一个特定的参数下,ab和C仍然相似,但D和E与其他任何东西都不相似
我将转换所有10个TSV文件以停止使用“家族”并替换为“相似基因”。这是个好主意吗
也许将这些TSV解析为R数据帧或将其导入SQL数据集可以工作?最终目标将是可视化这些网络,以及这些网络如何跨参数变化。现在让我无法接受的最大问题是,不同参数的族数不一致
任何帮助或讨论都将不胜感激
目前没有回答
相关问题 更多 >
编程相关推荐