python中蛋白质序列的一种热编码方法

2024-05-11 03:29:51 发布

您现在位置:Python中文网/ 问答频道 /正文

enter image description here

我需要把squences作为训练数据,输出列作为标签。但是在我必须在序列上应用一个热编码之前,因为您可以看到序列的长度不同,请建议我如何对所有氨基酸应用一个热编码以分配不同的整数值


Tags: 数据image编码here序列整数标签description
1条回答
网友
1楼 · 发布于 2024-05-11 03:29:51

没有其他人能够确定存储数据集的最佳方法。这是一个只有对目标和数据集有很好理解的人才能做出的决定。ɕ(x)-你的特征向量-总是非常特定于你的数据。在

例如,如果你有DNA,你可能对某个密码子是否存在,或者腺嘌呤的数量等有一些特征,这是非常主观的,即使有很好的理解,调谐也是一项非常重要的任务。在

你必须非常小心,因为你可能会在你的数据中产生偏差,使某些类别具有一定的长度、某些氨基酸的数量等,如果你不正确地生成特征向量,这些偏差就不能真正代表你所要分类的东西。这可能导致测试和培训错误率具有欺骗性并产生错误结论。在

老实说,如果你在上大学,我建议你找一个计算机科学系或其他类似学科的人来帮助你的项目。虽然使用预先烘焙的sklearn编码似乎很诱人,但对于您的案例来说,这并不是一个好的解决方案。由于数据量有限,很有可能在序列长度方面出现异常情况,尝试将每个字符转换为其自己的特征将导致拟合性能较差。在

至于实际将数据读入python,它是一个csv,因此您可以用open()和split(',')手动解析它,也可以使用一些流行的库来解析csv格式。基督教青年会

相关问题 更多 >