下面是我的用例:
1.
最初,我需要存储大约20GB的JSON文件进行处理。我将解析它们,初始表如下所示:
requestId A B C Ap Bp Cp
-------------------------------------------------------------------
A723B23C 10 55 51 0 0 0
D412J34N 20 51 91 0 0 0
GJF834NF 30 59 71 0 0 0
RequestId是唯一的。在
2.
之后,我需要对每列A,B,C做一些计算,包括计算A,B,C中每个元素的百分位秩
3.
数据准备好后,我需要对表执行简单的'where Ap>;20 and Ap<;30'类型的查询。然后计算平均值或用结果数据集创建直方图。在
Q1 我决定使用Pytables来存储数据。但问题是,panda在我的用例中是否有益?这会让我的生活更轻松,还是会是一个不必要的麻烦?在
第二季度 我希望得到一个单独的数据集,比如说,D E和F。这将再次有RequestID;在RequestID中有大约80%的重叠。我可能需要在两个表之间执行联接类型操作,以便能够关联和分析两个数据集中的数据。我知道Pytables中没有实际的连接支持,但是有一些解决方法。但是我还没有找到很多关于它的效率和速度的信息!有人试过吗?我能期待什么样的表演?在
目前没有回答
相关问题 更多 >
编程相关推荐