Pandas的嵌套数据

2024-05-19 18:41:29 发布

您现在位置:Python中文网/ 问答频道 /正文

首先,我知道这是一个危险的问题。关于在pandas中存储和访问嵌套数据有很多类似的问题,但我认为我的问题不同(更一般),所以请等一下。:)

我有一个运动员的中等规模的训练数据集。每项训练都有一个日期和时间、大约200个属性(例如平均速度和心率)以及一些原始数据(3-10个列表,例如每秒的速度和心率值)。我有大约300个训练,每个训练平均包含约4000秒。在

到目前为止,我尝试了三种解决方案来存储熊猫的数据,以便能够对其进行分析:

  1. 我可以使用MultiIndex并将所有数据存储在1个数据帧中,但是 数据帧会变得非常大(这不一定是个问题 但是视觉上的检查是很困难的)并且对数据进行切片是很麻烦的。在
  2. 另一种方法是存储日期和属性 在数据帧df_1中,并将原始数据存储在单独的 数据帧df_2我将存储在一个单独的列raw_datadf_1中。在
  3. …或者(类似于(2))我可以将原始数据存储在单独的DataFrames中 存储在dict中,其键与 DataFramedf_1。在

这两个解决方案中的任何一个都可以工作,对于这个用例来说,它们中的任何一个都没有显著的性能优势。对我来说(1)感觉是最“通俗”的(真的很像这个词:),但是切片数据很困难,而且目视检查DataFrame(打印它)是没有用的。(2) 感觉有点'黑客'和就地修改可能是不可靠的,但这个解决方案是非常好的工作。和(3)是丑陋的,有点难以合作,但也是我认为最Python。在

问题:每种方法的好处是什么?您认为最适合的解决方案是什么?

顺便说一句:我当然愿意接受其他解决方案。在


Tags: 数据方法pandasdf列表原始数据属性时间