使用pyparsing解析跨多行的单词转义分隔符

Question

我正在尝试用 pyparsing 来解析那些可以通过反斜杠加换行符组合（"\\n"）分开的单词。以下是我目前的尝试：

from pyparsing import *

continued_ending = Literal('\\') + lineEnd
word = Word(alphas)
split_word = word + Suppress(continued_ending)
multi_line_word = Forward()
multi_line_word << (word | (split_word + multi_line_word))

print multi_line_word.parseString(
'''super\\
cali\\
fragi\\
listic''')

我得到的输出是 ['super']，而我期望的输出是 ['super', 'cali', 'fragi', 'listic']。更好的是，如果能把它们合并成一个完整的单词，那就更好了（我想我可以用 multi_line_word.parseAction(lambda t: ''.join(t)) 来实现）。

我试着查看 pyparsing helper 中的代码，但出现了一个错误，提示 maximum recursion depth exceeded（超出了最大递归深度）。

编辑于 2009-11-15： 我后来意识到，pyparsing 对空格的处理有点宽松，这导致我对解析内容的理解有些偏差。也就是说，我们希望在单词的各个部分、转义符和行结束符之间没有空格。

我意识到上面的这个小示例字符串作为测试用例是不够的，所以我写了以下单元测试。通过这些测试的代码应该能够匹配我直观上认为的转义分割单词——而且仅仅是转义分割的单词。它们不会匹配那些没有转义分割的基本单词。我们可以——而且我认为应该——使用不同的语法结构来处理这些。这样把两者分开处理会让事情更清晰。

import unittest
import pyparsing

# Assumes you named your module 'multiline.py'
import multiline

class MultiLineTests(unittest.TestCase):

    def test_continued_ending(self):

        case = '\\\n'
        expected = ['\\', '\n']
        result = multiline.continued_ending.parseString(case).asList()
        self.assertEqual(result, expected)


    def test_continued_ending_space_between_parse_error(self):

        case = '\\ \n'
        self.assertRaises(
            pyparsing.ParseException,
            multiline.continued_ending.parseString,
            case
        )


    def test_split_word(self):

        cases = ('shiny\\', 'shiny\\\n', ' shiny\\')
        expected = ['shiny']
        for case in cases:
            result = multiline.split_word.parseString(case).asList()
            self.assertEqual(result, expected)


    def test_split_word_no_escape_parse_error(self):

        case = 'shiny'
        self.assertRaises(
            pyparsing.ParseException,
            multiline.split_word.parseString,
            case
        )


    def test_split_word_space_parse_error(self):

        cases = ('shiny \\', 'shiny\r\\', 'shiny\t\\', 'shiny\\ ')
        for case in cases:
            self.assertRaises(
                pyparsing.ParseException,
                multiline.split_word.parseString,
                case
            )


    def test_multi_line_word(self):

        cases = (
                'shiny\\',
                'shi\\\nny',
                'sh\\\ni\\\nny\\\n',
                ' shi\\\nny\\',
                'shi\\\nny '
                'shi\\\nny captain'
        )
        expected = ['shiny']
        for case in cases:
            result = multiline.multi_line_word.parseString(case).asList()
            self.assertEqual(result, expected)


    def test_multi_line_word_spaces_parse_error(self):

        cases = (
                'shi \\\nny',
                'shi\\ \nny',
                'sh\\\n iny',
                'shi\\\n\tny',
        )
        for case in cases:
            self.assertRaises(
                pyparsing.ParseException,
                multiline.multi_line_word.parseString,
                case
            )


if __name__ == '__main__':
    unittest.main()

单元测试文本解析转义字符反斜杠 pyparsing 多行字符串语法结构行结束符

使用pyparsing解析跨多行的单词转义分隔符

2 个回答

撰写回答