在python中存储ngram（字数可变的字符串）的最快方法

网友

1楼 · 编辑于 2024-06-16 18:41:21

我会尝试减少regexp搜索。在

值得考虑的是：

将所有数据存储在一个字典中可能会加快速度；具有额外层的数据层次结构没有帮助，可能会与直觉相反。
存储元组可以避免调用.format()。
在CPython中，函数中的代码比全局代码更快。

可能是这样的：

def load(filename):
    ngrams = {}
    for line in open(filename):
        if line[0] == '\\':
            pass  # just ignore all these lines
        else:
            first, rest = line.split(None, 1)
            middle, last = rest.rsplit(None, 1)
            ngrams[middle] = first, last
    return ngrams

ngrams = load("ngrams.txt")

我想存储int(first), int(last)，而不是{}。这会加快访问速度，但会减慢加载时间。所以这取决于你的工作量。在

我不同意johnthexii的观点：只要数据集适合内存，用Python执行此操作应该比与数据库（甚至是sqlite）交谈快得多。（如果您使用数据库，这意味着您可以执行一次加载，而不必重复加载，因此sqlite可能最终完全符合您的需要，但不能使用：memory:database执行此操作。）

网友

2楼 · 编辑于 2024-06-16 18:41:21

就个人而言，我会使用indexes迁移到数据库（sqllite3内置于python中）。索引使查询速度更快。Python还支持in memory sqllite databases。在

You can also supply the special name :memory: to create a database in RAM.

网友

3楼 · 编辑于 2024-06-16 18:41:21

关于代码的优化。在

1）在循环之前编译正则表达式。请参阅帮助重新编译. 在

2）尽可能避免使用正则表达式。例如，可以通过简单的字符串比较检查前缀为数字的“-grams”字符串

相关问题更多 >

编程相关推荐

热门问题

热门文章