如何设计一个极快的pythonhttpapi和数据查找（>15K请求/秒）？

1条回答

网友

1楼 · 发布于 2024-04-20 11:45:24

我会假设

所有字符串都是精确匹配的
所有未指定的条件匹配任何内容（通配符）
我们可以抛弃所有产生错误的规则
规则不能包含任何匹配项（通配符）
如果至少有一个规则与所有给定条件匹配，则结果为True，否则为False

我们可以建立一个快速查找，作为集合（匹配规则ID）的dict（列）的dict（列）：

from collections import namedtuple

WILDCARD = None

Rule = namedtuple("Rule", ["Country", "Criteria1", "Criteria2"])

rules = [
    Rule("UK", "Somestring1", "Somestring3"),
    Rule("UK", "Somestring1", "Somestring2"),
    Rule("US", "Somestring4", WILDCARD)
]

def build_lookup(rules):
    columns = Rule._fields
    # create lookup table (special handling of wildcard entries)
    lookup = {column: {WILDCARD: set()} for column in columns}
    # index rules by criteria
    for id, rule in enumerate(rules):
        for column, value in zip(columns, rule):
            if value in lookup[column]:
                lookup[column][value].add(id)
            else:
                lookup[column][value] = {id}
    return lookup

rule_lookup = build_lookup(rules)

对于给定的示例数据，rule_lookup现在包含

^{pr2}$

然后我们可以快速地将标准与规则匹配，比如

def all_matching_rules(criteria):
    """
    criteria is a dict of {column: value} to match

    Return a set of all rule ids which match criteria
    """
    if criteria:
        result = empty = set()
        first = True
        for column, value in criteria.items():
            ids = rule_lookup[column].get(value, empty) | rule_lookup[column][WILDCARD]
            if first:
                result = ids
                first = False
            else:
                result &= ids   # find intersection of sets
            # short-circuit evaluation if result is null set
            if not result:
                break
        return result
    else:
        # no criteria, return everything
        return set(range(len(rules)))

def any_rule_matches(criteria):
    """
    criteria is a dict of {column: value} to match

    Return True if any rule matches criteria, else False
    """
    if criteria:
        return bool(all_matching_rules(criteria))
    else:
        return bool(len(rules))

它跑起来像

>>> all_matching_rules({"Country": "UK", "Criteria2": "Somestring8"})
set()

>>> all_matching_rules({"Country": "US", "Criteria2": "Somestring8"})
{2}

>>> any_rule_matches({"Country": "UK", "Criteria2": "Somestring8"})
False

>>> any_rule_matches({"Country": "US", "Criteria2": "Somestring8"})
True

Timeit报告说，这在我的机器上运行大约930ns-应该足够快了；-）

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何设计一个极快的pythonhttpapi和数据查找（>15K请求/秒）？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >