PyParsing: 这样使用setParseAction()对吗？

7 投票

4 回答

6490 浏览

提问于 2025-04-15 23:21

我有一些这样的字符串：

"MSE 2110, 3030, 4102"

我想要输出：

[("MSE", 2110), ("MSE", 3030), ("MSE", 4102)]

这是我尝试的方法，虽然我还没有完全搞明白：

def makeCourseList(str, location, tokens):
    print "before: %s" % tokens

    for index, course_number in enumerate(tokens[1:]):
        tokens[index + 1] = (tokens[0][0], course_number)

    print "after: %s" % tokens

course = Group(DEPT_CODE + COURSE_NUMBER) # .setResultsName("Course")

course_data = (course + ZeroOrMore(Suppress(',') + COURSE_NUMBER)).setParseAction(makeCourseList)

这个输出是：

>>> course.parseString("CS 2110")
([(['CS', 2110], {})], {})
>>> course_data.parseString("CS 2110, 4301, 2123, 1110")
before: [['CS', 2110], 4301, 2123, 1110]
after: [['CS', 2110], ('CS', 4301), ('CS', 2123), ('CS', 1110)]
([(['CS', 2110], {}), ('CS', 4301), ('CS', 2123), ('CS', 1110)], {})

这样做对吗，还是我完全搞错了？

另外，输出的结果也不太正确——我希望course_data能生成一份格式一致的course符号列表。现在，第一个课程和其他的格式不一样。（它有一个{}，而其他的没有。）

字符串处理 pyparsing 格式化输出解析器设计 setparseaction 符号列表

4 个回答

-1

data = '''\
MSE 2110, 3030, 4102
CSE 1000, 2000, 3000'''

def get_courses(data):
    for row in data.splitlines():
        department, *numbers = row.replace(",", "").split()
        for number in numbers:
            yield department, number

这段代码会生成课程代码的生成器。如果需要的话，可以用 list() 来把它变成一个列表，或者你也可以直接遍历它。

回答于 2025-04-15 由 Python大师

分享举报

这样做对吗，还是我完全搞错了？

这是一种做法，当然还有其他方法（比如使用两个绑定的方法作为解析动作——这样方法所属的实例可以保持状态——一个用于部门代码，另一个用于课程编号）。

parseString的返回值比较难以控制（不过我相信有足够的黑魔法可以做到这一点，我期待保罗·麦圭尔来解释怎么做；-），所以为什么不试试绑定方法的方式呢，如下所示...：

from pyparsing import *

DEPT_CODE = Regex(r'[A-Z]{2,}').setResultsName("DeptCode")
COURSE_NUMBER = Regex(r'[0-9]{4}').setResultsName("CourseNumber")

class MyParse(object):
  def __init__(self):
      self.result = None

  def makeCourseList(self, str, location, tokens):
      print "before: %s" % tokens

      dept = tokens[0][0]
      newtokens = [(dept, tokens[0][1])]
      newtokens.extend((dept, tok) for tok in tokens[1:])

      print "after: %s" % newtokens
      self.result = newtokens

course = Group(DEPT_CODE + COURSE_NUMBER).setResultsName("Course")

inst = MyParse()
course_data = (course + ZeroOrMore(Suppress(',') + COURSE_NUMBER)
    ).setParseAction(inst.makeCourseList)
ignore = course_data.parseString("CS 2110, 4301, 2123, 1110")
print inst.result

这样会输出：

before: [['CS', '2110'], '4301', '2123', '1110']
after: [('CS', '2110'), ('CS', '4301'), ('CS', '2123'), ('CS', '1110')]
[('CS', '2110'), ('CS', '4301'), ('CS', '2123'), ('CS', '1110')]

如果我理解你的需求没错，这似乎正是你所需要的。

回答于 2025-04-15 由 Python大师

分享举报

这个解决方案在解析的时候会记住部门信息，当找到一个数字时，它会输出一个包含（部门，课程编号）的元组。

from pyparsing import Suppress,Word,ZeroOrMore,alphas,nums,delimitedList

data = '''\
MSE 2110, 3030, 4102
CSE 1000, 2000, 3000
'''

def memorize(t):
    memorize.dept = t[0]

def token(t):
    return (memorize.dept,int(t[0]))

course = Suppress(Word(alphas).setParseAction(memorize))
number = Word(nums).setParseAction(token)
line = course + delimitedList(number)
lines = ZeroOrMore(line)

print lines.parseString(data)

输出结果：

[('MSE', 2110), ('MSE', 3030), ('MSE', 4102), ('CSE', 1000), ('CSE', 2000), ('CSE', 3000)]

回答于 2025-04-15 由 Python大师

分享举报

PyParsing: 这样使用setParseAction()对吗？

4 个回答

撰写回答