remedian:大数据集的稳健平均
remedian的Python项目详细描述
补救
remedian:大型数据集的稳健平均方法-python 实施
该算法用于对几个数据块中值进行近似。 这些数据块不能(或不应该)立即加载到内存中。
给定大小为obs_size
和t
的数据块,则
remedian类设置长度为n_obs
的数组的数目k_arrs
。
大小{^ n_obs
位置
第一个数组的。当第一个数组满时,计算其中值
存储在第二个数组的第一个位置。在这之后,第一个
数组用于填充第二个数组的第二个位置等。
当第二个数组已满时,其值的中值存储在
第三个数组的第一个位置,依此类推。
最后一个“remedian”是最后一个数组的中值,毕竟是t
数据
已将块输入到对象中。
安装
pip install remedian
依赖项应该由pip自动安装。
最新版本的安装
- 激活您的python环境
git clone https://www.github.com/sappelhoff/remedian
cd remedian
pip install -e .
- 那么您应该能够
from remedian.remedian import Remedian
用法
参考资料
P.J. Rousseeuw, G.W. Bassett Jr., "The remedian: A robust averaging method for large data sets", Journal of the American Statistical Association, vol. 85 (1990), pp. 97-104
M. Chao, G. Lin, "The asymptotic distributions of the remedians", Journal of Statistical Planning and Inference, vol. 37 (1993), pp. 1-11
Domenico Cantone, Micha Hofri, "Further analysis of the remedian algorithm", Theoretical Computer Science, vol. 495 (2013), pp. 1-16