Python: YACC遇到问题
我正在使用PLY来解析像这样的句子:
"CS 2310 或同等经验"
我想要的输出是:
[[("CS", 2310)], ["equivalent experience"]]
YACC的标记符号:
tokens = [
'DEPT_CODE',
'COURSE_NUMBER',
'OR_CONJ',
'MISC_TEXT',
]
t_DEPT_CODE = r'[A-Z]{2,}'
t_COURSE_NUMBER = r'[0-9]{4}'
t_OR_CONJ = r'or'
t_ignore = ' \t'
terms = {'DEPT_CODE': t_DEPT_CODE,
'COURSE_NUMBER': t_COURSE_NUMBER,
'OR_CONJ': t_OR_CONJ}
for name, regex in terms.items():
terms[name] = "^%s$" % regex
def t_MISC_TEXT(t):
r'\S+'
for name, regex in terms.items():
# print "trying to match %s with regex %s" % (t.value, regex)
if re.match(regex, t.value):
t.type = name
return t
return t
(MISC_TEXT是用来匹配那些其他规则没有捕捉到的内容。)
解析器的一些相关规则:
precedence = (
('left', 'MISC_TEXT'),
)
def p_statement_course_data(p):
'statement : course_data'
p[0] = p[1]
def p_course_data(p):
'course_data : course'
p[0] = p[1]
def p_course(p):
'course : DEPT_CODE COURSE_NUMBER'
p[0] = make_course(p[1], int(p[2]))
def p_or_phrase(p):
'or_phrase : statement OR_CONJ statement'
p[0] = [[p[1]], [p[3]]]
def p_misc_text(p):
'''text_aggregate : MISC_TEXT MISC_TEXT
| MISC_TEXT text_aggregate
| text_aggregate MISC_TEXT '''
p[0] = "%s %s" % (p[0], [1])
def p_text_aggregate_statement(p):
'statement : text_aggregate'
p[0] = p[1]
不幸的是,这个解析失败了:
# works as it should
>>> token_list("CS 2110 or equivalent experience")
[LexToken(DEPT_CODE,'CS',1,0), LexToken(COURSE_NUMBER,'2110',1,3), LexToken(OR_CONJ,'or',1,8), LexToken(MISC_TEXT,'equivalent',1,11), LexToken(MISC_TEXT,'experience',1,22)]
# fails. bummer.
>>> parser.parse("CS 2110 or equivalent experience")
Syntax error in input: LexToken(MISC_TEXT,'equivalent',1,11)
我哪里做错了?我不太明白如何设置优先级规则。
另外,这是我的错误处理函数:
def p_error(p):
print "Syntax error in input: %s" % p
有没有办法查看解析器在失败时尝试了哪个规则?或者有没有其他方法让解析器打印出它尝试的规则?
更新 token_list()
只是一个辅助函数:
def token_list(string):
lexer.input(string)
result = []
for tok in lexer:
result.append(tok)
return result
更新 2:这是我希望进行的解析:
Symbol Stack Input Tokens Action
DEPT_CODE COURSE_NUMBER OR_CONJ MISC_TEXT MISC_TEXT
DEPT_CODE COURSE_NUMBER OR_CONJ MISC_TEXT MISC_TEXT Shift DEPT_CODE
DEPT_CODE COURSE_NUMBER OR_CONJ MISC_TEXT MISC_TEXT Shift COURSE_NUMBER
course OR_CONJ MISC_TEXT MISC_TEXT Reduce course : DEPT_CODE COURSE_NUMBER
course_data OR_CONJ MISC_TEXT MISC_TEXT Reduce course_data : course
statement OR_CONJ MISC_TEXT MISC_TEXT Reduce statement : course_data
statement OR_CONJ MISC_TEXT MISC_TEXT Shift OR_CONJ
statement OR_CONJ MISC_TEXT MISC_TEXT Shift MISC_TEXT
statement OR_CONJ text_aggregate MISC_TEXT Reduce text_aggregate : MISC_TEXT
statement OR_CONJ text_aggregate MISC_TEXT Shift MISC_TEXT
statement OR_CONJ text_aggergate Reduce text_aggregate : text_aggregate MISC_TEXT
statement OR_CONJ statement Reduce statement : TEXT_AGGREGATE
or_phrase Reduce or_phrase : statement OR_CONJ statement
statement Reduce statement : or_phrase
我添加了这个解析动作:
def p_misc_text_singleton(p):
'text_aggregate : MISC_TEXT'
p[0] = p[1]
当我尝试构建解析器时,我得到了这个输出:
Generating LALR tables
WARNING: 2 shift/reduce conflicts
WARNING: 3 reduce/reduce conflicts
WARNING: reduce/reduce conflict in state 8 resolved using rule (text_aggregate -> MISC_TEXT MISC_TEXT)
WARNING: rejected rule (text_aggregate -> MISC_TEXT) in state 8
解析仍然因为语法错误而失败,如上所述。
1 个回答
1
我无法重现你的错误,反而在“or”那儿遇到了语法错误。你没有包含一个使用了 or_phrase
的规则。当我加上这个规则时,就没有错误了。
我觉得这不是优先级的问题。如果你能设置日志记录,那就能看到 PLY 在执行的步骤,并且可以和你想要的结果进行对比。要做到这一点,可以在解析函数中传入 debug=1
(你可能也需要把这个参数传给 yacc
)。如果调试不成功,可以看看 PLY 的 yacc.py
文件。
出现 reduce/reduce 冲突是因为不清楚应该把 MISC_TEXT MISC_TEXT
简化成 text_aggregate MISC_TEXT
还是 text_aggregate
。
在无法重现问题的情况下,我猜解决你错误的办法是把 p_misc_text
规则改成:
'''text_aggregate : MISC_TEXT
| text_aggregate MISC_TEXT'''
我觉得你也可以删除 precedence
这个元组。