2D滚动窗口分位数的最快方法？

import numpy as np import pandas as pd import multiprocessing as mp from functools import partial import numba as nb X = np.random.random((10000,1000)) # Original array has dimensions of about (1e6, 1e5)

def strided_app(a, L, S): nrows = ((a.size-L)//S)+1 n = a.strides[0] return np.lib.stride_tricks.as_strided(a, shape=(nrows,L), strides=(S*n,n)) def np_1d(x, window, q): return np.pad(np.percentile(strided_app(x, window, 1), q*100, axis=-1), (window-1, 0) , mode='constant') def np_rolling_quantile(X, window, q): results = [] for i in np.arange(X.shape[1]): results.append(np_1d(X[:,i], window, q)) return np.column_stack(results)

def mp_rolling_quantile(X, window, q): pool = mp.Pool(processes=12) results = pool.map(partial(pd_rolling_quantile, window=window, q=q), [X[:,i] for i in np.arange(X.shape[1])]) pool.close() pool.join() return np.column_stack(results)

@nb.njit def nb_1d(x, window, q): out = np.zeros(x.shape[0]) for i in np.arange(x.shape[0]-window+1)+window: out[i-1] = np.quantile(x[i-window:i], q=q) return out def nb_rolling_quantile(X, window, q): results = [] for i in np.arange(X.shape[1]): results.append(nb_1d(X[:,i], window, q)) return np.column_stack(results)

1条回答

网友
1楼 · 发布于 2024-06-01 01:08:07

我想推荐新的rolling-quantiles{a1}。为了证明这一点，即使是为每一列构建单独过滤器的有点幼稚的方法也优于上述单线程pandas实验：
pipes = [rq.Pipeline(rq.LowPass(window=1000, quantile=0.1)) for i in range(1000)] %timeit [pipe.feed(X[:, i]) for i, pipe in enumerate(pipes)] 1.34 s ± 7.76 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
对
df = pd.DataFrame(X) %timeit df.rolling(1000).quantile(0.1) 5.63 s ± 27 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
如您所示，这两种方法都可以通过multiprocessing进行简单的并行化

相关问题更多 >

编程相关推荐

热门问题

热门文章