我有太字节的数据。因此,当无法同时加载所有数据时,标准的pandas
和numpy
过程(group-by
、mean
、histogram
等)将无法工作。你知道吗
我的数据将来自^{
现在我需要的是基于迭代方法计算数据矩的方法。你知道吗
期望值是直截了当的:
n, mean = 0, 0
for chunk in iterator:
nCurrent = len(chunk)
meanCurrent = chunk['variable'].mean()
mean = (n * mean + nCurrent * meanCurrent)/(n + nCurrent)
n += nCurrent
然而,目前还不清楚一般的方法是什么。对于高阶矩,我该怎么做呢?你知道吗
另外,我对绘制分布图很感兴趣。假设我决定做一个直方图。如果一开始不知道分配的限制,就很难创建垃圾箱。我是否首先需要遍历整个分布以获得最小值和最大值,然后创建垃圾箱并开始计数?还是有更好的办法?你知道吗
对于平均值(
mean
),可以这样做:作为一种常规方法,如果您必须处理太字节的数据,我会选择Hadoop集群上的apachespark
相关问题 更多 >
编程相关推荐