如何检查复杂对象中无法被序列化的细节

Question

概述

我想把我的复杂对象进行序列化。乍一看这很简单，但每一步都会出现不同的问题。

最终，其他程序员也应该能够创建一个从我的父对象继承的复杂对象。而且这个对象应该可以被pickle化，适用于Python 2.7和Python 3.x。

我从一个简单的对象开始，成功使用了pickle.dump和pickle.load。

然后我创建了多个复杂对象（相似但不完全相同），其中一些可以被序列化，而有些则不行。

调试

pickle库知道哪些对象可以被序列化，哪些不可以。从理论上讲，这意味着pdb可以被定制来启用pickle调试。

替代序列化库

我想要一个可靠的序列化工具，不受对象内容的影响。所以我搜索了其他序列化工具：

Cerealizer，自测失败，看起来已经过时。
MessagePack，但不支持Python 3。
我尝试了JSON，结果出现错误： builtins.TypeError: <lib.scan.Content object at 0x7f37f1e5da50> is not JSON serializable
我查看了Marshal和Shelve，但它们都提到pickle。

深入使用pickle

我读过如何检查对象是否可被pickle化，但没有得到答案。

我找到的最接近的内容是如何找到Python Pickle在大型对象中的错误来源

我对此进行了调整：

import pickle

if _future_.isPython3():        
    class MyPickler(pickle._Pickler):        
        def save(self, obj):             
            try:
                pickle._Pickler.save(self, obj)
            except:
                print ('pick(3.x) {0} of type {1}'.format(obj, type(obj)))                  
else:
    class MyPickler (pickle.Pickler):

        def save(self, obj):         
            try:
                pickle.Pickler.save(self, obj)
            except:
                print('pick(2.x)', obj, 'of type', type(obj))

我通过以下方式调用这段代码：

def save(obj, file):  
    if platform.python_implementation() == 'CPython':
        myPickler = MyPickler(file)                
        myPickler.save(obj)

我希望保存操作能执行到抛出异常为止。obj的内容会被打印出来，这样我就能准确看到错误发生的位置。但结果是：

pick(3.x)  <class 'module'> of type <class 'type'>
pick(3.x)  <class 'module'> of type <class 'type'>
pick(3.x)  <class 'Struct'> of type <class 'type'>
pick(3.x)  <class 'site.setquit.<locals>.Quitter'> of type <class 'type'>
pick(3.x)  <class 'site.setquit.<locals>.Quitter'> of type <class 'type'>
pick(3.x)  <class 'module'> of type <class 'type'>
pick(3.x)  <class 'sys.int_info'> of type <class 'type'>
...

这只是结果的一小部分。我看不懂这个。它没有告诉我哪个细节在序列化时出错了，也不知道该如何解决。

我看过：http://docs.python.org/3/library/pickle.html#what-can-be-pickled-and-unpickled，但如果我无法检测到代码中的哪一行不能被pickle化，这对我帮助不大。

我复杂对象中的代码按预期工作，最终运行生成的代码如下：

sys.modules['unum']

但在序列化时，似乎“模块”没有按预期读取。

解决方案尝试

为了让大家明白我的意思，给点背景。我曾经有些程序正常工作，突然就不行了。可能是更新或其他资源的变化。对别人有效的程序对我却不行，反之亦然。

这是一个普遍的问题，所以我想开发一个程序来检查各种资源。不同类型的资源数量庞大。因此，我有一个父对象类，包含所有通用行为。还有一个尽可能小的细节类，用于特定资源。

这些在我的子资源类中完成。

这些资源需要用不同版本进行检查，比如Python 2.7或Python 3.3。如果你在Python 2.7.5下运行，资源是有效的，但如果需要Python 2.7及更高版本，就不行。所以检查必须比简单的相等值更复杂。

这在自定义配置文件中以单个语句指定。每个程序都有一个特定的配置文件，尽量保持简洁。一个资源在配置文件中用单个语句进行检查。

通用类大约占代码的98%。特定资源和配置仅占约2%的代码。因此，添加新的资源进行检查，以及为新程序创建新的配置文件非常简单。

这些子资源：

class R_Sys(r_base.R_Base):
    '''
    doc : http://docs.python.org/3/library/sys.html#module-sys

    sys.modules returns only a list of imported module

    statement :
    sys.modules['psutil'] #  may return false (installed but not imported
    but the statements :
    import psutil
    sys.modules['psutil'] # will return true, now psutil is imported
    '''

    allowed_names = ('modules', 'path', 'builtin_module_names', 'stdin')

    allowed_keys_in_dict_config = ('name',)
    allowed_operators = ("R_NONE", "=", 'installed')  # installed only for modules

    class_group = 'Sys'
    module_used = sys   


    def __init__(self, check_type, group, name):
        super(R_Sys, self).__init__(check_type, group, name)

通过这个配置语句调用：

sc.analyse(r.R_Sys, c.ct('DETECT'), dict(name='path'))

可以成功被pickle化。但使用配置语句：

sc.analyse(r.R_Sys, c.ct('DETECT'),
                     dict(name='modules', tuplename='unum') )

则失败了。

在我看来，这意味着98%的主代码应该是没问题的，否则第一个语句也会失败。

子类中有类属性。这些属性是正常运行所必需的。而且在第一次调用时，序列化执行得很好。我还没有进行反序列化。

继承配置文件调试序列化 pickle 序列化工具复杂对象资源检查

如何检查复杂对象中无法被序列化的细节

概述

调试

替代序列化库

深入使用pickle

解决方案尝试

1 个回答

撰写回答