在1次I/O过程中提取numpy和字典的最快方法

网友

1楼 · 编辑于 2024-05-16 00:18:58

这是一个典型的分组问题，numpy_indexed包高效而优雅地解决了这个问题（如果我自己也这么说的话；我是它的作者）

import numpy_indexed as npi
npi.group_by(arr[:, 0]).sum(arr[:, 2])

它是一个比pandas包更轻量级的解决方案，而且我认为语法更简洁，因为不需要仅仅为了执行这种基本操作而创建特殊的数据结构。性能应该与Divakar提出的解决方案相同，因为它遵循相同的步骤；只是在顶部有一个漂亮且经过测试的接口。你知道吗

网友

2楼 · 编辑于 2024-05-16 00:18:58

numpy方法：

u = np.unique(arr[:, 0])
s = ((arr[:, [0]] == u) * arr[:, [2]]).sum(0)

dict(np.stack([u, s]).T)

{1: 13, 2: 6, 3: 9}

熊猫方法：

import pandas as pd
import numpy as np

pd.DataFrame(arr, columns=list('ABC')).groupby('A').C.sum().to_dict()

{1: 13, 2: 6, 3: 9}

网友

3楼 · 编辑于 2024-05-16 00:18:58

下面是一个基于NumPy的方法，使用^{}-

sidx = arr[:,0].argsort()
idx = np.append(0,np.where(np.diff(arr[sidx,0])!=0)[0]+1)
keys = arr[sidx[idx],0]
vals = np.add.reduceat(arr[sidx,2],idx,axis=0)

如果要获取2列数组中的键和值-

out = np.column_stack((keys,vals)) # If you

样本运行-

In [351]: arr
Out[351]: 
array([[ 1, 20,  5],
       [ 1, 20,  8],
       [ 3, 10,  4],
       [ 2, 30,  6],
       [ 3, 10,  5]])

In [352]: out
Out[352]: 
array([[ 1, 13],
       [ 2,  6],
       [ 3,  9]])

相关问题更多 >

编程相关推荐

热门问题

热门文章

在1次I/O过程中提取numpy和字典的最快方法

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >