将关系数据库或对象数据库用作简单表而不合并

2024-05-08 00:27:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我的数据可以以关系数据库或对象数据库的方式显示。这种格式非常小(500 Mb),但当我合并我的表以使scikit能够学习处理它时(使它“整洁”,如统计社区中所说),这基本上是将所有表合并成一个唯一的表,它变得太大(17 Gb+),似乎是在浪费内存!这是因为有数以百万计的行共享许多相同的属性,因为它们与同一对象相关,因此许多数据都是冗余的、复制的和重复的。我可以使用技术来处理大数据,这可能是一个解决方案,但不可能完全避免吗?我可以直接在scikit learn中使用数据,而不必显式合并表吗?我可以在不占用额外内存的情况下进行模拟数据结构的隐式合并吗


Tags: 数据对象内存数据库属性格式方式浪费