找到字符串的*最*公共前缀更好的方法？

def detect_prefix(keys): PCT = 0.70 # cutof pre = '' l = len(keys) for i in range(0, len(max(keys, key=len))): keys = filter(lambda k: k.startswith(pre), keys) cnt = dict() for k in map(lambda k: k[i], keys): cnt.setdefault(k,0) cnt[k] +=1 if cnt[max(cnt)] / float(l) >= PCT: pre += max(cnt) else: break return pre

3条回答

网友

1楼 · 编辑于 2024-06-16 12:24:45

如果您知道公共前缀所需的阈值频率：

#!/usr/bin/env python
from collections import Counter
from itertools import izip_longest

strings = ['foo_a','foo_b','foo_c','fnord']
threshold = .7 * len(strings)
prefix = []
for chars in izip_longest(*strings, fillvalue=''):
    char, count = Counter(chars).most_common(1)[0]
    if count < threshold:
        break
    prefix.append(char)
print(''.join(prefix))
# -> foo_

或者，您可以收集所有常用前缀及其频率，然后再决定：

^{pr2}$

两个代码示例都假设存在主要前缀，即每个位置最常见的字符属于最常用前缀。在

网友

2楼 · 编辑于 2024-06-16 12:24:45

def det_pref(words):
    cnt =  {'':len(words)}
    for w_pfx in itertools.chain.from_iterable([[w[:i] for i in range(1,len(w)+1)] for  w in words]):
         cnt[w_pfx] = 1 + cnt.get(w_pfx,0)
    return max([w_pfx for (w_pfx,n) in cnt.items() if n/len(words)>0.7])

警告：由于此解决方案在循环过程中没有早期输出和输入缩减，因此它的效率低于原始代码。在

这里有一个更有效的方法，它仍然是Python式的，但比我的第一个方法更难理解，时间也更长：

^{pr2}$

网友

3楼 · 编辑于 2024-06-16 12:24:45

找到有特定前缀的事物的一个好方法是trie。我使用了一个名为pytrie的实现，但它们的工作方式基本相同。唯一有趣的一点是，你仍然需要用另一种方式生成所有前缀，因为向trie请求“foo峎a的所有前缀”只会给你“foo峎a”和它的所有前缀字符串，它们是数据的一部分，但你似乎关心“foo峎”，尽管它不是自己的键。但是，它可以用另一种方式来实现，它告诉您所有以给定前缀开头的键，即使它没有显式地存储。在

除此之外，一切都相当简单。包括进口，共有五行：

from pytrie import StringTrie as trie

data = trie.fromkeys(['foo_a','foo_b','foo_c','fnord'])
PCT = 0.70 
prefixes = (k[:i] for k in data for i,_ in enumerate(k, start=1))
print(max(filter(lambda x: len(data.keys(x)) >= PCT * len(data), prefixes), key=len))

打印foo_。在

找到字符串的最公共前缀更好的方法？

相关问题更多 >

编程相关推荐

热门问题

热门文章

相关问题 更多 >

编程相关推荐

热门问题

热门文章

找到字符串的最公共前缀更好的方法？

相关问题更多 >