如何匹配具有多个重叠模式的正则表达式？

2条回答

网友

1楼 · 编辑于 2024-06-01 04:17:44

这个解决方案似乎有效。除了正则表达式之外，还需要一个元组列表来描述模式，其中每个元素对应于正则表达式的一个捕获组。在

以披头士乐队为例，应该是这样的：

pattern = r"the (.+_.+)-SomeWord-(.+)"
groups = [(("Artist", "Album"), "_"), ("Year", None)]

因为Artist和{}只由一个分隔符拆分，所以它们将被捕获到一个组中。列表中的第一项指示第一个捕获组将被拆分为和Artist和Album，并将使用_作为分隔符。列表中的第二项指示第二个捕获组将直接用作Year，因为元组中的第二个元素是None。然后可以像这样调用函数：

^{pr2}$

代码如下：

import re
from itertools import combinations

def get_mp3_info(groups, pattern, title):
    match = re.match(pattern, title)
    if not match:
        return []
    result = [{}]
    for i, v in enumerate(groups):
        if v[1] is None:
            for r in result:
                r[v[0]] = match.group(i+1)
        else:
            splits = match.group(i+1).split(v[1])
            before = [d.copy() for d in result]
            for comb in combinations(range(1, len(splits)), len(v[0])-1):
                temp = [d.copy() for d in before]
                comb = (None,) + comb + (None,)
                for j, split in enumerate(zip(comb, comb[1:])):
                    for t in temp:
                        t[v[0][j]] = v[1].join(splits[split[0]:split[1]])

                if v[0][0] in result[0]:
                    result.extend(temp)
                else:
                    result = temp
    return result

另一个例子是Bob Marley：

>>> pprint.pprint(get_mp3_info([(("Artist", "Title"), "-")],
...               r"(.+-.+)", "Bob-Marley-Roots-Rock-Reggae"))
[{'Artist': 'Bob', 'Title': 'Marley-Roots-Rock-Reggae'},
 {'Artist': 'Bob-Marley', 'Title': 'Roots-Rock-Reggae'},
 {'Artist': 'Bob-Marley-Roots', 'Title': 'Rock-Reggae'},
 {'Artist': 'Bob-Marley-Roots-Rock', 'Title': 'Reggae'}]

网友

2楼 · 编辑于 2024-06-01 04:17:44

用这种方法代替正则表达式怎么样？在

import re

string = "Bob-Marley-Roots-Rock-Reggae"

def allSplits(string, sep):
    results = []
    chunks = string.split('-')
    for i in xrange(len(chunks)-1):
        results.append((
            sep.join(chunks[0:i+1]),
            sep.join(chunks[i+1:len(chunks)])
        ))

    return results

print allSplits(string, '-')

^{pr2}$

上下文

问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何匹配具有多个重叠模式的正则表达式？

上下文

问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >