Python中集群计算的快速JSON序列化（以及与Pickle的比较）？

def json_serialize(obj, filename, use_jsonpickle=True): f = open(filename, 'w') if use_jsonpickle: import jsonpickle json_obj = jsonpickle.encode(obj) f.write(json_obj) else: simplejson.dump(obj, f, indent=1) f.close()

2条回答

网友

1楼 · 编辑于 2024-05-14 01:21:19

marshal是最快的，但是pickle本身可能不是{}（这是相当快的，特别是使用-1协议）。因此，除了可读性问题之外，下面是一些代码来展示各种可能性：

import pickle
import cPickle
import marshal
import json

def maked(N=5400):
  d = {}
  for x in range(N):
    k = 'key%d' % x
    v = [x] * 5
    d[k] = v
  return d
d = maked()

def marsh():
  return marshal.dumps(d)

def pick():
  return pickle.dumps(d)

def pick1():
  return pickle.dumps(d, -1)

def cpick():
  return cPickle.dumps(d)

def cpick1():
  return cPickle.dumps(d, -1)

def jso():
  return json.dumps(d)

def rep():
  return repr(d)

下面是我笔记本电脑上的速度：

^{pr2}$

因此，使用repr可以使可读性和是json.dumps的10倍（您牺牲了Javascript和其他语言的解析容易性）；使用marshal可以获得绝对最高速度，几乎比json快90倍；cPickle比json或{}提供了更多的通用性（就可以序列化的内容而言），但是如果您永远不会使用这种通用性，那么您最好选择marshal（或者{}，如果人类的可读性胜过速度）。在

至于你的“切片”思想，代替大量的文件，你可能需要考虑一个数据库（大量的记录），如果你运行的数据有一些可识别的“模式”，你甚至可以在没有实际序列化的情况下逃脱。在

网友

2楼 · 编辑于 2024-05-14 01:21:19

我认为您在这里面临一个权衡：人类的可读性是以性能和大文件大小为代价的。因此，在Python中可用的所有序列化方法中，JSON不仅可读性最强，而且速度最慢。在

如果我必须追求性能（和文件紧凑性），我会选择marshall。您可以使用dump（）和load（）封送整个数据集，或者根据您的分层思想，将数据集的各个部分封送到单独的文件中。这样，如果您愿意，就为数据处理的并行化打开了大门。在

当然，文档中有各种各样的限制和警告，所以如果您决定安全起见，请使用pickle。在

相关问题更多 >

编程相关推荐

热门问题

热门文章