快速Haversine近似（Python/Pandas）

3条回答

网友

1楼 · 编辑于 2024-06-16 11:48:00

下面是同一函数的矢量化numpy版本：

import numpy as np

def haversine_np(lon1, lat1, lon2, lat2):
    """
    Calculate the great circle distance between two points
    on the earth (specified in decimal degrees)

    All args must be of equal length.    

    """
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])

    dlon = lon2 - lon1
    dlat = lat2 - lat1

    a = np.sin(dlat/2.0)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2.0)**2

    c = 2 * np.arcsin(np.sqrt(a))
    km = 6367 * c
    return km

输入都是值的数组，它应该能够立即完成数百万个点。要求输入是ndarrays，但是pandas表的列可以工作。

例如，对于随机生成的值：

>>> import numpy as np
>>> import pandas
>>> lon1, lon2, lat1, lat2 = np.random.randn(4, 1000000)
>>> df = pandas.DataFrame(data={'lon1':lon1,'lon2':lon2,'lat1':lat1,'lat2':lat2})
>>> km = haversine_np(df['lon1'],df['lat1'],df['lon2'],df['lat2'])

或者如果要创建另一列：

>>> df['distance'] = haversine_np(df['lon1'],df['lat1'],df['lon2'],df['lat2'])

在python中，遍历数据数组的速度非常慢。Numpy提供了对整个数据数组进行操作的函数，这样可以避免循环并显著提高性能。

这是vectorization的一个例子。

网友

2楼 · 编辑于 2024-06-16 11:48:00

纯粹为了一个说明性的例子，我在@ballsdotballs的答案中使用了numpy版本，并通过ctypes调用了一个附带的C实现。因为numpy是一个高度优化的工具，所以我的C代码很难有这么高的效率，但是它应该有点接近。这里的最大优点是，通过运行一个带有C类型的示例，它可以帮助您了解如何将自己的个人C函数连接到Python，而不需要太多开销。当您只想通过在某些C源代码（而不是Python）中编写一个小部分来优化一个更大的计算时，这一点特别好。简单地使用numpy可以解决大多数情况下的问题，但是对于那些不真正需要所有numpy并且不希望在某些代码中添加耦合以要求使用numpy数据类型的情况，知道如何下拉到内置的ctypes库并自己动手是非常方便的。

首先，让我们创建我们的C源文件，名为haversine.c：

#include <stdlib.h>
#include <stdio.h>
#include <math.h>

int haversine(size_t n, 
              double *lon1, 
              double *lat1, 
              double *lon2, 
              double *lat2,
              double *kms){

    if (   lon1 == NULL 
        || lon2 == NULL 
        || lat1 == NULL 
        || lat2 == NULL
        || kms == NULL){
        return -1;
    }

    double km, dlon, dlat;
    double iter_lon1, iter_lon2, iter_lat1, iter_lat2;

    double km_conversion = 2.0 * 6367.0; 
    double degrees2radians = 3.14159/180.0;

    int i;
    for(i=0; i < n; i++){
        iter_lon1 = lon1[i] * degrees2radians;
        iter_lat1 = lat1[i] * degrees2radians;
        iter_lon2 = lon2[i] * degrees2radians;
        iter_lat2 = lat2[i] * degrees2radians;

        dlon = iter_lon2 - iter_lon1;
        dlat = iter_lat2 - iter_lat1;

        km = pow(sin(dlat/2.0), 2.0) 
           + cos(iter_lat1) * cos(iter_lat2) * pow(sin(dlon/2.0), 2.0);

        kms[i] = km_conversion * asin(sqrt(km));
    }

    return 0;
}

// main function for testing
int main(void) {
    double lat1[2] = {16.8, 27.4};
    double lon1[2] = {8.44, 1.23};
    double lat2[2] = {33.5, 20.07};
    double lon2[2] = {14.88, 3.05};
    double kms[2]  = {0.0, 0.0};
    size_t arr_size = 2;

    int res;
    res = haversine(arr_size, lon1, lat1, lon2, lat2, kms);
    printf("%d\n", res);

    int i;
    for (i=0; i < arr_size; i++){
        printf("%3.3f, ", kms[i]);
    }
    printf("\n");
}

注意，我们试图遵守C的约定。通过引用显式地传递数据参数，对大小变量使用size_t，并期望我们的haversine函数通过对传递的输入之一进行变异来工作，以便它在退出时包含预期的数据。函数实际上返回一个整数，这是一个成功/失败标志，可以被函数的其他C级使用者使用。

我们需要找到一种方法来处理Python中所有这些C特定的小问题。

接下来，让我们将函数的numpy版本以及一些导入和一些测试数据放入名为haversine.py的文件中：

import time
import ctypes
import numpy as np
from math import radians, cos, sin, asin, sqrt

def haversine(lon1, lat1, lon2, lat2):
    """
    Calculate the great circle distance between two points 
    on the earth (specified in decimal degrees)
    """
    # convert decimal degrees to radians 
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])
    # haversine formula 
    dlon = lon2 - lon1 
    dlat = lat2 - lat1 
    a = (np.sin(dlat/2)**2 
         + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2)
    c = 2 * np.arcsin(np.sqrt(a)) 
    km = 6367 * c
    return km

if __name__ == "__main__":
    lat1 = 50.0 * np.random.rand(1000000)
    lon1 = 50.0 * np.random.rand(1000000)
    lat2 = 50.0 * np.random.rand(1000000)
    lon2 = 50.0 * np.random.rand(1000000)

    t0 = time.time()
    r1 = haversine(lon1, lat1, lon2, lat2)
    t1 = time.time()
    print t1-t0, r1

我选择了在0到50之间随机选择的lats和lons（以度为单位），但这对解释来说并不重要。

接下来我们需要做的是编译我们的C模块，这样它就可以被Python动态加载。我使用的是Linux系统（你可以在Google上很容易地找到其他系统的示例），所以我的目标是将haversine.c编译成一个共享对象，如下所示：

gcc -shared -o haversine.so -fPIC haversine.c -lm

我们还可以编译成一个可执行文件并运行它来查看C程序的main函数显示了什么：

> gcc haversine.c -o haversine -lm
> ./haversine
0
1964.322, 835.278,

现在我们已经编译了共享对象haversine.so，我们可以使用ctypes在Python中加载它，并且我们需要提供文件的路径来执行此操作：

lib_path = "/path/to/haversine.so" # Obviously use your real path here.
haversine_lib = ctypes.CDLL(lib_path)

现在haversine_lib.haversine的行为非常类似于Python函数，只是我们可能需要执行一些手动类型封送处理，以确保输入和输出被正确解释。

numpy实际上为此提供了一些不错的工具，我将在这里使用的是numpy.ctypeslib。我们将构建一个指针类型，它将允许我们把numpy.ndarrays传递给这些ctypes加载的函数，就像它们是指针一样。代码如下：

arr_1d_double = np.ctypeslib.ndpointer(dtype=np.double, 
                                       ndim=1, 
                                       flags='CONTIGUOUS')

haversine_lib.haversine.restype = ctypes.c_int
haversine_lib.haversine.argtypes = [ctypes.c_size_t,
                                    arr_1d_double, 
                                    arr_1d_double,
                                    arr_1d_double,
                                    arr_1d_double,
                                    arr_1d_double]

注意，我们告诉haversine_lib.haversine函数代理根据需要的类型解释其参数。

现在，要从Python中测试它，剩下的就是生成一个size变量，以及一个数组，该数组将被修改（就像在C代码中一样）以包含结果数据，然后我们可以调用它：

size = len(lat1)
output = np.empty(size, dtype=np.double)
print "====="
print output
t2 = time.time()
res = haversine_lib.haversine(size, lon1, lat1, lon2, lat2, output)
t3 = time.time()
print t3 - t2, res
print type(output), output

把它们放在haversine.py的__main__块中，整个文件现在看起来如下：

import time
import ctypes
import numpy as np
from math import radians, cos, sin, asin, sqrt

def haversine(lon1, lat1, lon2, lat2):
    """
    Calculate the great circle distance between two points 
    on the earth (specified in decimal degrees)
    """
    # convert decimal degrees to radians 
    lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])
    # haversine formula 
    dlon = lon2 - lon1 
    dlat = lat2 - lat1 
    a = (np.sin(dlat/2)**2 
         + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2)
    c = 2 * np.arcsin(np.sqrt(a)) 
    km = 6367 * c
    return km

if __name__ == "__main__":
    lat1 = 50.0 * np.random.rand(1000000)
    lon1 = 50.0 * np.random.rand(1000000)
    lat2 = 50.0 * np.random.rand(1000000)
    lon2 = 50.0 * np.random.rand(1000000)

    t0 = time.time()
    r1 = haversine(lon1, lat1, lon2, lat2)
    t1 = time.time()
    print t1-t0, r1

    lib_path = "/home/ely/programming/python/numpy_ctypes/haversine.so"
    haversine_lib = ctypes.CDLL(lib_path)
    arr_1d_double = np.ctypeslib.ndpointer(dtype=np.double, 
                                           ndim=1, 
                                           flags='CONTIGUOUS')

    haversine_lib.haversine.restype = ctypes.c_int
    haversine_lib.haversine.argtypes = [ctypes.c_size_t,
                                        arr_1d_double, 
                                        arr_1d_double,
                                        arr_1d_double,
                                        arr_1d_double,
                                        arr_1d_double]

    size = len(lat1)
    output = np.empty(size, dtype=np.double)
    print "====="
    print output
    t2 = time.time()
    res = haversine_lib.haversine(size, lon1, lat1, lon2, lat2, output)
    t3 = time.time()
    print t3 - t2, res
    print type(output), output

要运行它，它将分别运行Python和ctypes版本并计时，并打印一些结果，我们可以

python haversine.py

显示：

0.111340045929 [  231.53695005  3042.84915093   169.5158946  ...,  1359.2656769
  2686.87895954  3728.54788207]
=====
[  6.92017600e-310   2.97780954e-316   2.97780954e-316 ...,
   3.20676686e-001   1.31978329e-001   5.15819721e-001]
0.148446083069 0
<type 'numpy.ndarray'> [  231.53675618  3042.84723579   169.51575588 ...,  1359.26453029
  2686.87709456  3728.54493339]

正如预期的那样，numpy版本稍快（长度为100万的向量为0.11秒），但是我们快速而肮脏的ctypes版本并不是没精打采的：在相同的数据上的0.148秒。

我们将其与Python中的naive for循环解决方案进行比较：

from math import radians, cos, sin, asin, sqrt

def slow_haversine(lon1, lat1, lon2, lat2):
    n = len(lon1)
    kms = np.empty(n, dtype=np.double)
    for i in range(n):
       lon1_v, lat1_v, lon2_v, lat2_v = map(
           radians, 
           [lon1[i], lat1[i], lon2[i], lat2[i]]
       )

       dlon = lon2_v - lon1_v 
       dlat = lat2_v - lat1_v 
       a = (sin(dlat/2)**2 
            + cos(lat1_v) * cos(lat2_v) * sin(dlon/2)**2)
       c = 2 * asin(sqrt(a)) 
       kms[i] = 6367 * c
    return kms

当我将它放入与其他Python文件相同的Python文件中，并在相同的百万元素数据上计时时，我始终看到在我的机器上大约2.65秒。

因此，通过快速切换到ctypes，我们将速度提高了约18倍。对于许多可以从访问裸的、连续的数据中获益的计算，您经常会看到甚至比这更高的收益。

非常清楚地说，我根本不赞同这是一个比使用numpy更好的选择。这正是构建numpy要解决的问题，因此，无论何时（a）在应用程序中合并numpy数据类型是有意义的，并且（b）存在一种将代码映射到numpy等价物的简单方法，这都不是非常有效的。

但是，如果您喜欢用C编写一些东西，却又用Python调用它，或者依赖于numpy是不实际的（例如，在无法安装numpy的嵌入式系统中），那么了解如何这样做仍然非常有帮助。

网友

3楼 · 编辑于 2024-06-16 11:48:00

如果允许使用scikit learn，我将提供以下机会：

from sklearn.neighbors import DistanceMetric
dist = DistanceMetric.get_metric('haversine')

# example data
lat1, lon1 = 36.4256345, -5.1510261
lat2, lon2 = 40.4165, -3.7026
lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])

X = [[lat1, lon1],
     [lat2, lon2]]
kms = 6367
print(kms * dist.pairwise(X))

相关问题更多 >

编程相关推荐

热门问题

热门文章