如何快速对多个数据集进行最小二乘拟合？

Question

我正在尝试对很多数据点进行高斯拟合。比如说，我有一个256 x 262144的数据数组，其中256个点需要拟合成高斯分布，而我需要做262144次这样的拟合。

有时候，高斯分布的峰值会超出数据范围，所以为了得到准确的平均结果，曲线拟合是最好的方法。即使峰值在范围内，曲线拟合也能提供更好的标准差，因为其他数据可能不在这个范围内。

我已经成功地对一个数据点进行了拟合，使用的是来自http://www.scipy.org/Cookbook/FittingData的代码。

我尝试重复这个算法，但看起来需要大约43分钟才能解决这个问题。有没有已经写好的更快的方法，可以并行处理或者更高效地完成这个任务呢？

from scipy import optimize                                                                                                                                          
from numpy import *                                                                                                                                                 
import numpy                                                                                                                                                        
# Fitting code taken from: http://www.scipy.org/Cookbook/FittingData                                                                                                

class Parameter:                                                                                                                                                    
    def __init__(self, value):                                                                                                                                  
            self.value = value                                                                                                                                  

    def set(self, value):                                                                                                                                       
            self.value = value                                                                                                                                  

    def __call__(self):                                                                                                                                         
            return self.value                                                                                                                                   


def fit(function, parameters, y, x = None):                                                                                                                         
    def f(params):                                                                                                                                              
            i = 0                                                                                                                                               
            for p in parameters:                                                                                                                                
                    p.set(params[i])                                                                                                                            
                    i += 1                                                                                                                                      
            return y - function(x)                                                                                                                              

    if x is None: x = arange(y.shape[0])                                                                                                                        
    p = [param() for param in parameters]                                                                                                                       
    optimize.leastsq(f, p)                                                                                                                                      


def nd_fit(function, parameters, y, x = None, axis=0):                                                                                                              
    """                                                                                                                                                         
    Tries to an n-dimensional array to the data as though each point is a new dataset valid across the appropriate axis.                                        
    """                                                                                                                                                         
    y = y.swapaxes(0, axis)                                                                                                                                     
    shape = y.shape                                                                                                                                             
    axis_of_interest_len = shape[0]                                                                                                                             
    prod = numpy.array(shape[1:]).prod()                                                                                                                        
    y = y.reshape(axis_of_interest_len, prod)                                                                                                                   

    params = numpy.zeros([len(parameters), prod])                                                                                                               

    for i in range(prod):                                                                                                                                       
            print "at %d of %d"%(i, prod)                                                                                                                       
            fit(function, parameters, y[:,i], x)                                                                                                                
            for p in range(len(parameters)):                                                                                                                    
                    params[p, i] = parameters[p]()                                                                                                              

    shape[0] = len(parameters)                                                                                                                                  
    params = params.reshape(shape)                                                                                                                              
    return params

请注意，数据不一定是256x262144的，我在nd_fit中做了一些调整以使其工作。

我用来实现这个功能的代码是

from curve_fitting import *
import numpy
frames = numpy.load("data.npy")
y = frames[:,0,0,20,40]
x = range(0, 512, 2)
mu = Parameter(x[argmax(y)])
height = Parameter(max(y))
sigma = Parameter(50)
def f(x): return height()  * exp (-((x - mu()) / sigma()) ** 2)

ls_data = nd_fit(f, [mu, sigma, height], frames, x, 0)

注意：下面@JoeKington发布的解决方案非常好，解决得也很快。不过，似乎只有在高斯的显著区域在适当范围内时才有效。我还需要测试一下平均值是否仍然准确，因为这是我主要使用这个方法的目的。

数据处理数据分析并行计算标准差统计建模曲线拟合高斯拟合最小二乘拟合

如何快速对多个数据集进行最小二乘拟合？

1 个回答

撰写回答