自定义平均值实现比默认平均值慢。如何优化？

def mean_without_overflow(df): avgs = [] for column in df: avg, t = 0, 1 for data in df[column]: if not math.isnan(data): avg += (data-avg) / t; t += 1 avgs.append(avg) return avgs

3条回答

网友

1楼 · 编辑于 2024-05-16 01:30:22

如果我错了，请纠正我，但我相信：

sum(l) / len(l) = sum(l[:n]) / len(l) + sum(l[n:2*n]) / len(l) + ...

这意味着您可以按大小n批量np.sum，这样n * 2100 < max_float16

网友

2楼 · 编辑于 2024-05-16 01:30:22

我自己找到了解决办法。逻辑是首先将所有值标准化，将其除以序列长度（#个记录），然后使用默认值df.mean()，然后将标准化的平均值乘以#个记录：这是一个从1分37秒到3.13秒的改进。但是我仍然不明白为什么熊猫实现没有使用这样的优化。你知道吗

def mean_without_overflow_fast(col):
    col /= len(col)
    return col.mean() * len(col)

按如下方式使用此功能：

print (df.apply(mean_without_overflow_fast))

网友

3楼 · 编辑于 2024-05-16 01:30:22

在pandas中循环很慢，所以可以使用apply。你知道吗

def mean_without_overflow(column):
    avg, t = 0, 1
    for data in column:
        if not math.isnan(data): 
            avg += (data-avg) / t
            t += 1 
    return avg

然后我们可以计算出df的整个平均值。你知道吗

mean_df = np.mean(df.apply(mean_without_overflow))

以上脚本与

mean_df = np.mean(df.apply(np.mean))

相关问题更多 >

编程相关推荐

热门问题

热门文章