首先,我知道这是一个危险的问题。关于在pandas中存储和访问嵌套数据有很多类似的问题,但我认为我的问题不同(更一般),所以请等一下。:)
我有一个运动员的中等规模的训练数据集。每项训练都有一个日期和时间、大约200个属性(例如平均速度和心率)以及一些原始数据(3-10个列表,例如每秒的速度和心率值)。我有大约300个训练,每个训练平均包含约4000秒。在
到目前为止,我尝试了三种解决方案来存储熊猫的数据,以便能够对其进行分析:
MultiIndex
并将所有数据存储在1个数据帧中,但是
数据帧会变得非常大(这不一定是个问题
但是视觉上的检查是很困难的)并且对数据进行切片是很麻烦的。在df_1
中,并将原始数据存储在单独的
数据帧df_2
我将存储在一个单独的列raw_data
在df_1
中。在DataFrame
s中
存储在dict
中,其键与
DataFrame
df_1
。在这两个解决方案中的任何一个都可以工作,对于这个用例来说,它们中的任何一个都没有显著的性能优势。对我来说(1)感觉是最“通俗”的(真的很像这个词:),但是切片数据很困难,而且目视检查DataFrame
(打印它)是没有用的。(2) 感觉有点'黑客'和就地修改可能是不可靠的,但这个解决方案是非常好的工作。和(3)是丑陋的,有点难以合作,但也是我认为最Python。在
问题:每种方法的好处是什么?您认为最适合的解决方案是什么?
顺便说一句:我当然愿意接受其他解决方案。在
目前没有回答
相关问题 更多 >
编程相关推荐