python中蛋白质序列的一种热编码方法

1条回答

网友

1楼 · 发布于 2024-05-11 03:29:51

没有其他人能够确定存储数据集的最佳方法。这是一个只有对目标和数据集有很好理解的人才能做出的决定。ɕ（x）-你的特征向量-总是非常特定于你的数据。在

例如，如果你有DNA，你可能对某个密码子是否存在，或者腺嘌呤的数量等有一些特征，这是非常主观的，即使有很好的理解，调谐也是一项非常重要的任务。在

你必须非常小心，因为你可能会在你的数据中产生偏差，使某些类别具有一定的长度、某些氨基酸的数量等，如果你不正确地生成特征向量，这些偏差就不能真正代表你所要分类的东西。这可能导致测试和培训错误率具有欺骗性并产生错误结论。在

老实说，如果你在上大学，我建议你找一个计算机科学系或其他类似学科的人来帮助你的项目。虽然使用预先烘焙的sklearn编码似乎很诱人，但对于您的案例来说，这并不是一个好的解决方案。由于数据量有限，很有可能在序列长度方面出现异常情况，尝试将每个字符转换为其自己的特征将导致拟合性能较差。在

至于实际将数据读入python，它是一个csv，因此您可以用open（）和split（'，'）手动解析它，也可以使用一些流行的库来解析csv格式。基督教青年会