对Pandas使用Pytables还是仅仅使用Numpy?

2024-05-08 04:41:38 发布

您现在位置:Python中文网/ 问答频道 /正文

下面是我的用例:

1.

最初,我需要存储大约20GB的JSON文件进行处理。我将解析它们,初始表如下所示:

requestId       A        B        C          Ap        Bp        Cp
-------------------------------------------------------------------
A723B23C       10        55      51          0         0         0 
D412J34N       20        51      91          0         0         0
GJF834NF       30        59      71          0         0         0

RequestId是唯一的。在

2.

之后,我需要对每列A,B,C做一些计算,包括计算A,B,C中每个元素的百分位秩

3.

数据准备好后,我需要对表执行简单的'where Ap>;20 and Ap<;30'类型的查询。然后计算平均值或用结果数据集创建直方图。在

Q1 我决定使用Pytables来存储数据。但问题是,panda在我的用例中是否有益?这会让我的生活更轻松,还是会是一个不必要的麻烦?在

第二季度 我希望得到一个单独的数据集,比如说,D E和F。这将再次有RequestID;在RequestID中有大约80%的重叠。我可能需要在两个表之间执行联接类型操作,以便能够关联和分析两个数据集中的数据。我知道Pytables中没有实际的连接支持,但是有一些解决方法。但是我还没有找到很多关于它的效率和速度的信息!有人试过吗?我能期待什么样的表演?在


Tags: 文件数据json类型用例pytablescpap