antlr4 python target 无法识别unicod

2024-05-29 04:32:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个ID终止符

ID      : ([A-Z_]|'\u0100'..'\uFFFE') ([A-Z_0-9]|'\u0100'..'\uFFFE')*;

以及要解析的.txt示例文件

^{pr2}$

我生成了Java和Python2目标,并分别针对示例文件进行了测试。Java目标可以解析这个文件。但是Python2的目标不能,它抛出token recognition error at: '均'。我用其他有效的输入测试了Python2目标,除了包含unicode字符之外,其他都可以。我错过了什么,还是python目标不支持unicode解析。在

爪哇

mkdir -p java
java -jar /usr/local/lib/antlr-4.5.3-complete.jar TDX.g4 -o ./java
cd ./java
javac TDX*.java
java org.antlr.v4.gui.TestRig TDX prog -gui ../samples/1.txt

python目标生成命令

java -jar /usr/local/lib/antlr-4.5.3-complete.jar -Dlanguage=Python2 TDX.g4 -o ./tdx_py/antlrgen -visitor

python代码

import sys
from antlr4 import *
from tdx_py.antlrgen import TDXLexer, TDXParser

def executefile(file):
    input = FileStream(file, encoding='utf-8')
    lexer = TDXLexer(input)
    stream = CommonTokenStream(lexer)
    parser = TDXParser(stream)
    tree = parser.prog()


if __name__ == '__main__':
    executefile(sys.argv[1])

Tags: 文件importtxtid示例目标unicodejava

热门问题