解释器维护的整数缓存是什么？

PyRun_FileExFlags() mod = PyParser_ASTFromFile() node *n = PyParser_ParseFileFlagsEx() //source to cst parsetoke() ps = PyParser_New() for (;;) PyTokenizer_Get() PyParser_AddToken(ps, ...) mod = PyAST_FromNode(n, ...) //cst to ast run_mod(mod, ...) co = PyAST_Compile(mod, ...) //ast to CFG PyFuture_FromAST() PySymtable_Build() co = compiler_mod() PyEval_EvalCode(co, ...) PyEval_EvalCodeEx()

DEBUG: before PyAST_FromNode name = a ival = 257, id = 176046536 name = b ival = 257, id = 176046752 name = a name = b DEBUG: after PyAST_FromNode run_mod PyAST_Compile ok id(a) = 176046536, id(b) = 176046536 Eval ok

1条回答

网友

1楼 · 发布于 2024-04-29 10:04:45

Python缓存范围^{}中的整数，因此预期该范围中的整数也相同。

您看到的是Python编译器在对相同文本的一部分进行优化时对相同的文本进行优化。

在Python shell中输入时，每一行都是一个完全不同的语句，在不同的时刻解析，因此：

>>> a = 257
>>> b = 257
>>> a is b
False

但是如果你把相同的代码放到一个文件中：

$ echo 'a = 257
> b = 257
> print a is b' > testing.py
$ python testing.py
True

每当解析器有机会分析文本的使用位置时，就会发生这种情况，例如在交互式解释器中定义函数时：

>>> def test():
...     a = 257
...     b = 257
...     print a is b
... 
>>> dis.dis(test)
  2           0 LOAD_CONST               1 (257)
              3 STORE_FAST               0 (a)

  3           6 LOAD_CONST               1 (257)
              9 STORE_FAST               1 (b)

  4          12 LOAD_FAST                0 (a)
             15 LOAD_FAST                1 (b)
             18 COMPARE_OP               8 (is)
             21 PRINT_ITEM          
             22 PRINT_NEWLINE       
             23 LOAD_CONST               0 (None)
             26 RETURN_VALUE        
>>> test()
True
>>> test.func_code.co_consts
(None, 257)

请注意编译后的代码如何包含257的单个常量。

总之，Python字节码编译器无法执行大规模优化（如静态类型语言），但它所做的比您想象的还要多。其中之一就是分析文字的用法，避免重复。

请注意，这与缓存无关，因为它也适用于没有缓存的浮动：

>>> a = 5.0
>>> b = 5.0
>>> a is b
False
>>> a = 5.0; b = 5.0
>>> a is b
True

对于更复杂的文本，如元组，它“不起作用”：

>>> a = (1,2)
>>> b = (1,2)
>>> a is b
False
>>> a = (1,2); b = (1,2)
>>> a is b
False

但是元组中的文本是共享的：

>>> a = (257, 258)
>>> b = (257, 258)
>>> a[0] is b[0]
False
>>> a[1] is b[1]
False
>>> a = (257, 258); b = (257, 258)
>>> a[0] is b[0]
True
>>> a[1] is b[1]
True

关于为什么会创建两个PyInt_Object，我会猜测这样做是为了避免文字比较。例如，数字257可以用多个文字表示：

>>> 257
257
>>> 0x101
257
>>> 0b100000001
257
>>> 0o401
257

解析器有两种选择：

在创建整数之前，将文本转换为一些公共基，并查看文本是否等效。然后创建单个整数对象。
创建整数对象并查看它们是否相等。如果是，只保留一个值并将其分配给所有文本，否则，您已经有了要分配的整数。

Python解析器可能使用了第二种方法，这种方法避免了重写转换代码，而且更易于扩展（例如，它也可以使用float）。

读取Python/ast.c文件时，解析所有数字的函数是parsenumber，它调用PyOS_strtoul获取整数值（对于整数），并最终调用PyLong_FromString：

    x = (long) PyOS_strtoul((char *)s, (char **)&end, 0);
    if (x < 0 && errno == 0) {
        return PyLong_FromString((char *)s,
                                 (char **)0,
                                 0);
    }

正如您在这里看到的，解析器会检查是否已经找到一个具有给定值的整数，所以这就解释了为什么会创建两个int对象，这也意味着我的猜测是正确的：解析器首先创建常量，然后才优化字节码，以便对相同的常量使用相同的对象。

执行此检查的代码必须位于Python/compile.c或Python/peephole.c中的某个位置，因为这些文件将AST转换为字节码。

尤其是compiler_add_o函数似乎就是这样做的。在compiler_lambda中有此注释：

/* Make None the first constant, so the lambda can't have a
   docstring. */
if (compiler_add_o(c, c->u->u_consts, Py_None) < 0)
    return 0;

因此，似乎compiler_add_o用于为函数/lambdas等插入常量。函数compiler_add_o将常量存储到一个dict对象中，紧接着，相等的常量将落在同一个槽中，从而在最后的字节码中产生一个常量。

相关问题更多 >

编程相关推荐

热门问题

热门文章