Levenshtein编辑距离库
leven的Python项目详细描述
levenshtein编辑python距离库,apache许可。 作者:荷兰Escience中心的Lars Buitink,有贡献 来自阿姆斯特丹大学的Isaac Sijaranamual。
对字节字符串或Unicode代码点执行距离计算。
安装
确保安装了Cython和C++编译器:
pip install cython<安装C++编译器是依赖于平台的,所以我不会显示 说明。请咨询您的包管理员。
然后:
python setup.py install
要运行测试,但不是实际使用leven,您需要6和nose。
用法
>>> from leven import levenshtein >>> levenshtein("hello, world!", "goodbye, cruel world!") 13
关于实现
核心算法已在C++中实现。我用这个代替C 为了获得模板、更简单的内存管理和更好的标准库, 所以C++代码可能看起来是C-ISH。
待办事项
- 实现有界levenshtein距离的ukkonen算法
- 在字符串空间中实现levenshtein自动机进行快速邻居搜索
- 实现加权levenshtein距离