使用pyparsing的递归表达式

8 投票
2 回答
2300 浏览
提问于 2025-04-16 09:15

我正在尝试弄清楚如何处理一个左结合的表达式,这里可以有递归的(没有被其他东西包围的)表达式。举个例子,我想要实现:

expr + OP + expr

这个可以把两个操作,比如 1 x 2 x 3,解析成 (expr OP expr) OP expr 的结果。

如果我试图防止 expr 解析时出现无限递归,我可以这样做:

expr -> Group(simple_expr + OP + expr)
      | simple_expr

但这样我得到的结果是 expr OP (expr OR expr)

我该如何强制左侧绑定呢?

补充:我知道 operatorPrecedence 的概念,但当操作符是 "IS" + Optional("NOT") 或类似的情况时,它似乎没有正确匹配。

2 个回答

1

Pyparsing 这个工具会生成左侧的解析树。你可以在 expr 被解析完之后,添加一个语义动作来修改这个解析树。

8

这里有一个示例解析动作,它会把平坦的标记列表处理成嵌套的结构,就像是用左递归的方式解析一样:

from pyparsing import *

# parse action -maker
def makeLRlike(numterms):
    if numterms is None:
        # None operator can only by binary op
        initlen = 2
        incr = 1
    else:
        initlen = {0:1,1:2,2:3,3:5}[numterms]
        incr = {0:1,1:1,2:2,3:4}[numterms]

    # define parse action for this number of terms,
    # to convert flat list of tokens into nested list
    def pa(s,l,t):
        t = t[0]
        if len(t) > initlen:
            ret = ParseResults(t[:initlen])
            i = initlen
            while i < len(t):
                ret = ParseResults([ret] + t[i:i+incr])
                i += incr
            return ParseResults([ret])
    return pa


# setup a simple grammar for 4-function arithmetic
varname = oneOf(list(alphas))
integer = Word(nums)
operand = integer | varname

# ordinary opPrec definition
arith1 = operatorPrecedence(operand,
    [
    (None, 2, opAssoc.LEFT),
    (oneOf("* /"), 2, opAssoc.LEFT),
    (oneOf("+ -"), 2, opAssoc.LEFT),
    ])

# opPrec definition with parseAction makeLRlike
arith2 = operatorPrecedence(operand,
    [
    (None, 2, opAssoc.LEFT, makeLRlike(None)),
    (oneOf("* /"), 2, opAssoc.LEFT, makeLRlike(2)),
    (oneOf("+ -"), 2, opAssoc.LEFT, makeLRlike(2)),
    ])

# parse a few test strings, using both parsers
for arith in (arith1, arith2):
    print arith.parseString("A+B+C+D+E")[0]
    print arith.parseString("A+B+C*D+E")[0]
    print arith.parseString("12AX+34BY+C*5DZ+E")[0]

输出结果:

(正常)

['A', '+', 'B', '+', 'C', '+', 'D', '+', 'E']
['A', '+', 'B', '+', ['C', '*', 'D'], '+', 'E']
[['12', 'A', 'X'], '+', ['34', 'B', 'Y'], '+', ['C', '*', ['5', 'D', 'Z']], '+', 'E']

(类似LR的)

[[[['A', '+', 'B'], '+', 'C'], '+', 'D'], '+', 'E']
[[['A', '+', 'B'], '+', ['C', '*', 'D']], '+', 'E']
[[[[['12', 'A'], 'X'], '+', [['34', 'B'], 'Y']], '+', ['C', '*', [['5', 'D'], 'Z']]], '+', 'E']

撰写回答