从列表数组聚合键值的更快方法，而不是使用groupby

2024-04-25 05:39:55 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在处理一个正常工作的函数，但它没有我想要的那么快。此函数有一个dict数组作为以下类型的输入：

item = [{
         "var0057":31,
         "var0001":"A",
         "var0002":2,
         "data":[{
                   "var0046":"tr100",
                   "var0055":55,
                   "var0054":1000,
                   "var0058":2038
                  },
                  {
                   "var0046":"tr200",
                   "var0055":12,
                   "var0054":8000,
                   "var0058":2038
                   }]
         },
         {
         "var0057":31,
         "var0001":"B",
         "var0002":3,
         "data":[{
                   "var0046":"tr100",
                   "var0055":110,
                   "var0054":14000,
                   "var0058":2038
                  },
                  {
                   "var0046":"tr300",
                   "var0055":3,
                   "var0054":30000,
                   "var0058":2038
                   }]  
 }]

因此，使用这个dict数组的midle目标是只使用data键获得dict数组，其中键var0055和var0054的值由键var0046的值相同的对象聚合，例如：

data = [{
            "var0046":"tr100",
            "var0055":165,
            "var0054":15000
         },
         {
            "var0046":"tr200",
            "var0055":12,
            "var0054":8000
         },
         {
            "var0046":"tr300",
            "var0055":3,
            "var0054":30000
         }]  
 }]

我的最终目标是得到一个var0055和var0054值的数组，其中数组的每个位置表示键的对象的值除以同一键中所有对象的和，例如：

sum_var0054 = 15000+8000+30000
var0054 = [15000/sum_var0054,8000/sum_var0054,30000/sum_var0054]

我的代码正在运行，但运行缓慢：

def my_func(response):

    data2 = []

    for items in response['item']:
        data2.extend(items['data'])

   response2 = pd.DataFrame(data2)
   response2 = response2.drop(columns = ['var0058'])
   response2 = response2.groupby('var0046', as_index=False).sum()

   sum_var0054 = sum(response2['var0054'])
   ind0054 = sum((response2['var0054'] ** 2)/sum_var0054)

   sum_var0055 = sum(response2['var0055'])
   ind0055 = sum((response2['var0055'] ** 2)/sum_var0055)

   response.clear()
   response['ind0054'] = ind0054
   response['ind0055'] = ind0055

为什么要聚合这个dict以更快的方式得到ind0054和ind0055的结果？不需要转换成数据帧？直接使用dict格式

Tags：对象 data response 数组 dict sum data2 response2

0条回答

目前没有回答

从列表数组聚合键值的更快方法，而不是使用groupby

相关问题更多 >

编程相关推荐

热门问题

热门文章

从列表数组聚合键值的更快方法，而不是使用groupby

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >