对Pandas使用Pytables还是仅仅使用Numpy？

2024-05-19 17:39:22 发布

您现在位置：Python中文网/ 问答频道 /正文

4056

网友

男 | 程序猿一只，喜欢编程写python代码。

下面是我的用例：

最初，我需要存储大约20GB的JSON文件进行处理。我将解析它们，初始表如下所示：

requestId       A        B        C          Ap        Bp        Cp
-------------------------------------------------------------------
A723B23C       10        55      51          0         0         0 
D412J34N       20        51      91          0         0         0
GJF834NF       30        59      71          0         0         0

RequestId是唯一的。在

之后，我需要对每列A，B，C做一些计算，包括计算A，B，C中每个元素的百分位秩

数据准备好后，我需要对表执行简单的'where Ap>；20 and Ap<；30'类型的查询。然后计算平均值或用结果数据集创建直方图。在

Q1 我决定使用Pytables来存储数据。但问题是，panda在我的用例中是否有益？这会让我的生活更轻松，还是会是一个不必要的麻烦？在

第二季度 我希望得到一个单独的数据集，比如说，D E和F。这将再次有RequestID；在RequestID中有大约80%的重叠。我可能需要在两个表之间执行联接类型操作，以便能够关联和分析两个数据集中的数据。我知道Pytables中没有实际的连接支持，但是有一些解决方法。但是我还没有找到很多关于它的效率和速度的信息！有人试过吗？我能期待什么样的表演？在

Tags：文件数据 json 类型用例 pytables cp ap

0条回答

目前没有回答

对Pandas使用Pytables还是仅仅使用Numpy？

相关问题更多 >

编程相关推荐

热门问题

热门文章

对Pandas使用Pytables还是仅仅使用Numpy？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >