利用PySpark进行尺度密度估计

2024-05-16 00:02:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我们有一个密度估计需求(最终目标是进行异常检测),在过去,我们使用纯python和scipy处理小型数据集,方法与WHAT类似。描述如下:Fitting empirical distribution to theoretical ones with Scipy (Python)?,这对小型数据集很有效,但是现在我们需要对5000多个变量执行此操作,每个变量有数千个样本,我们正在寻找利用我们的spark群集来扩展此功能的方法,spark有pyspark.mllib.stat.KernelDensity但我找不到任何例子,说明如何在不需要一个循环来迭代和计算每个变量的一个密度的情况下,而不是在一个而是多个密度估计情况下使用它

我的问题是,我们如何做以下选择之一:

  1. 在spark集群内以分布式/并行方式运行基于scipy.stats的方法
  2. 使用pyspark.mllib.stat.KernelDensity并行运行多密度估计

在这两种情况下,目标都是利用并行性,而无需对循环中的每个变量依次运行密度估计


Tags: 数据方法利用情况scipywhatstatspark