我们有一个密度估计需求(最终目标是进行异常检测),在过去,我们使用纯python和scipy处理小型数据集,方法与WHAT类似。描述如下:Fitting empirical distribution to theoretical ones with Scipy (Python)?,这对小型数据集很有效,但是现在我们需要对5000多个变量执行此操作,每个变量有数千个样本,我们正在寻找利用我们的spark群集来扩展此功能的方法,spark有pyspark.mllib.stat.KernelDensity
但我找不到任何例子,说明如何在不需要一个循环来迭代和计算每个变量的一个密度的情况下,而不是在一个而是多个密度估计情况下使用它
我的问题是,我们如何做以下选择之一:
在这两种情况下,目标都是利用并行性,而无需对循环中的每个变量依次运行密度估计
目前没有回答
相关问题 更多 >
编程相关推荐