Pandas性能:一个列多个数据类型还是拆分成不同数据类型?

0 投票
1 回答
733 浏览
提问于 2025-04-18 07:12

我正在处理非常大的 pandas 数据框,里面有2000万行和30列。每一行都有很多数据,并且每一行都有一个“类型”,这个类型会用到特定的列。因为这个原因,我现在设计的数据框中有一些列是混合数据类型的,具体取决于这一行的“类型”。

我想问的是,从性能的角度来看,我应该把这些混合数据类型的列拆分成两个单独的列,还是保持为一个列?我在保存这些数据框(使用to_pickle)时遇到了一些问题,想尽量提高效率。

这些列目前可能是浮点数/字符串、浮点数/整数、浮点数/整数/字符串的混合。

1 个回答

0

在我看来,这可能要看你后续的使用场景。不过我个人认为,每一列应该有独特的数据类型,否则像是分组统计和其他常见的Pandas功能就可能无法正常使用。

撰写回答