我只是想要一些关于数据在输入到机器学习算法之前应该如何进行预处理的一般提示。我正试图进一步理解为什么我们在预处理时会做出不同的决定,如果有人能在清理数据、删除多余的数据等时,把我们需要考虑的所有不同的事情都做一遍。我会发现这非常有信息,因为我在网上搜索了很多规范的答案或经验法则这里和那里似乎没有。在
我在.tsv文件中有一组可用的数据here。训练集有7000行,测试集有3000行。如果每个行中有100行不可读,我应该使用什么不同的策略来处理格式错误的数据?500?1000?任何能帮助我解释这一点的指南都将不胜感激。在
示例代码将是伟大的看到,但如果你不喜欢它是没有必要的,我只是想了解我应该做什么!:)
谢谢
有很多事情需要根据实际数据来决定。这并不像在获取数据时总是指定需要执行的几个步骤那么简单。在
不过,我可以试着列举一些通常帮助很大的事情。不过,首先也是最重要的是彻底分析数据,并尽力“理解它们”。了解数据和所有的背景,背后的抓取和收集数据是必不可少的部分。如果您了解丢失数据或噪音的原因,那么您就可以知道如何处理它了。在
不过,我会给你一些提示:
总而言之,一般来说很难回答。避免“让事情变得更糟”的好方法是从消除所有“坏价值”开始。只需删除所有缺少或错误值的行。转换前面提到的所有其他值,并尝试获得第一个结果。然后你会更好地理解所有的数据,你也会有更好的想法去哪里寻找任何改进。在
如果你对特定的“预处理问题”有任何进一步的问题,我很乐意编辑这个答案,并添加更多如何处理它的想法。在
相关问题 更多 >
编程相关推荐