可能重复的numpy数组的排名

def argsortdup(a1): sorted = np.sort(a1) ranked = [] for item in a1: ranked.append(sorted.searchsorted(item)) return np.array(ranked) In [86]: a2 = np.array([ 0.1, 1.1, 2.1, 3.1, 4.1, 1.1, 6.1, 7.1, 7.1, 1.1]) In [87]: %timeit a2.argsort().argsort() 1000000 loops, best of 3: 1.55 us per loop In [88]: %timeit argsortdup(a2) 10000 loops, best of 3: 25.6 us per loop In [89]: a = np.arange(0.1, 1000.1) In [90]: %timeit a.argsort().argsort() 10000 loops, best of 3: 24.5 us per loop In [91]: %timeit argsortdup(a) 1000 loops, best of 3: 1.14 ms per loop In [92]: a = np.arange(0.1, 10000.1) In [93]: %timeit a.argsort().argsort() 1000 loops, best of 3: 303 us per loop In [94]: %timeit argsortdup(a) 100 loops, best of 3: 11.9 ms per loop

3条回答

网友

1楼 · 编辑于 2024-04-19 11:52:46

这里有一个函数可以返回您想要的输出（在第一种情况下）

def argsortdup(a1):
  sorted = sort(a1)
  ranked = []
  for item in a1:
    ranked.append(sorted.searchsorted(item))
  return array(ranked)

基本上，你对它进行排序，然后搜索项目所在的索引。假设重复，则应返回第一个实例索引。我用你的a2例子测试了一下

^{pr2}$

收益率

array([0, 1, 4, 5, 6, 1, 7, 8, 8, 1])

“a2测试”：

>>> a2
array([ 0.1,  1.1,  2.1,  3.1,  4.1,  1.1,  6.1,  7.1,  7.1,  1.1])
>>> def argsortdup(a1):
...   sorted = sort(a1)
...   ranked = []
...   for item in a1:
...     ranked.append(sorted.searchsorted(item))
...   return array(ranked)
...
>>> a3 = argsortdup(a2)
>>> a2
array([ 0.1,  1.1,  2.1,  3.1,  4.1,  1.1,  6.1,  7.1,  7.1,  1.1])
>>> a3
array([0, 1, 4, 5, 6, 1, 7, 8, 8, 1])
>>>

网友

2楼 · 编辑于 2024-04-19 11:52:46

使用unique和bincount可以做得相当好：

>>> u, v = np.unique(a2, return_inverse=True)
>>> (np.cumsum(np.bincount(v)) - 1)[v]
array([0, 3, 4, 5, 6, 3, 7, 9, 9, 3])

或者，对于最低级别：

^{pr2}$

通过给bincount提供要提供的箱子数量，有一个小的加速：

(np.cumsum(np.bincount(v, minlength=u.size)) - 1)[v]

网友

3楼 · 编辑于 2024-04-19 11:52:46

在升级到最新版本的scipy后，正如评论中@WarrenWeckesser所建议的那样，scipy.stats.rankdata似乎比{}和{}这两种方法都要快。在

In [1]: import numpy as np

In [2]: from scipy.stats import rankdata as rd
   ...: from scipy.stats.mstats import rankdata as rd2
   ...: 

In [3]: array = np.arange(0.1, 1000000.1)

In [4]: %timeit np.searchsorted(np.sort(array), array)
1 loops, best of 3: 385 ms per loop

In [5]: %timeit rd(array)
10 loops, best of 3: 109 ms per loop

In [6]: %timeit rd2(array)
1 loops, best of 3: 205 ms per loop

相关问题更多 >

编程相关推荐

热门问题

热门文章