查找最长的相邻重复非重叠子字符串问题的回答

查找最长的相邻重复非重叠子字符串

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

（这个问题与音乐无关，但我以音乐为例（一个用例。） 在音乐中，短语结构的一种常见方式是按音符序列中间部分重复一次或多次。因此，这个短语由引言、循环部分和输出部分组成。这里有一个例如： <pre><code>[ E E E F G A F F G A F F G A F C D ] </code></pre> 我们可以“看到”介绍是[E]，重复部分是[F G A] F]输出为[cd]。因此，拆分列表的方法是 <pre><code>[ [ E E E ] 3 [ F G A F ] [ C D ] ] </code></pre> 其中第一项是简介，第二项是重复部分重复，第三部分输出 我需要一个算法来执行这样的拆分 但有一点需要注意，那就是可能有多种方法拆分列表。例如，上述列表可分为： <pre><code>[ [ E E E F G A ] 2 [ F F G A ] [ F C D ] ] </code></pre> 但这是一个更糟糕的分裂，因为介绍和介绍更长。所以该算法的标准是找到最大化环件的长度，并使环件的组合长度最小开场白和开场白。这意味着正确的分割 <pre><code>[ A C C C C C C C C C A ] </code></pre> 是 <pre><code>[ [ A ] 9 [ C ] [ A ] ] </code></pre> 因为导入和导出的组合长度是2，而循环部分的长度为9 此外，虽然intro和outro可以是空的，但只有“true”重复是空的允许。因此，不允许进行以下拆分： <pre><code>[ [ ] 1 [ E E E F G A F F G A F F G A F C D ] [ ] ] </code></pre> 可以将其视为为为数据找到最佳的“压缩” 序列请注意，在某些序列中可能没有任何重复： <pre><code>[ A B C D ] </code></pre> 对于这些退化情况，任何合理的结果都是允许的 以下是我对算法的实现： <pre><code>def find_longest_repeating_non_overlapping_subseq(seq): candidates = [] for i in range(len(seq)): candidate_max = len(seq[i + 1:]) // 2 for j in range(1, candidate_max + 1): candidate, remaining = seq[i:i + j], seq[i + j:] n_reps = 1 len_candidate = len(candidate) while remaining[:len_candidate] == candidate: n_reps += 1 remaining = remaining[len_candidate:] if n_reps > 1: candidates.append((seq[:i], n_reps, candidate, remaining)) if not candidates: return (type(seq)(), 1, seq, type(seq)()) def score_candidate(candidate): intro, reps, loop, outro = candidate return reps - len(intro) - len(outro) return sorted(candidates, key = score_candidate)[-1] </code></pre> 我不确定它是否正确，但它通过了我做的简单测试描述。问题是，这是一种缓慢的方式。我已经看过了在后缀树上，但它们似乎不适合我的用例，因为我要寻找的子字符串应该是不重叠和相邻的

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

查找最长的相邻重复非重叠子字符串

1 个回答

相关Python问题