找到Jaro Winkler距离,它表示两个字符串之间的相似性分数

pyjarowinkler的Python项目详细描述


https://travis-ci.org/nap/jaro-winkler-distance.svg?branch=masterhttps://coveralls.io/repos/nap/jaro-winkler-distance/badge.svg?branch=master&service=githubhttps://img.shields.io/github/license/nap/jaro-winkler-distance.svghttps://img.shields.io/pypi/pyversions/pyjarowinkler.svg

找到Jaro Winkler距离,它表示两个字符串之间的相似性分数。 jaro度量是每个文件中匹配字符百分比的加权和。 以及换位字符。winkler增加了这个匹配初始字符的度量。

实现

原始实现基于Jaro Winkler Similarity Algorithm文章,可以在Wikipedia上找到。 原始实现的这个python版本基于Apache StringUtils库。

正确性

unittest类似于StringUtils库中的内容,用于验证实现。

stringutils中使用shorter / 2 + 1的限制,这与wikipedia和Winkler’s paper不同,后者使用longer / 2 - 1的距离,对应于longer / 2的位置。 从version 1.8开始,该算法现在可以正确地与来自wikipedia的"CTRATE" - "TRACE"示例一起工作。

示例

>>> from pyjarowinkler import distance
>>> # Scaling is 0.1 by default
>>> print distance.get_jaro_distance("hello", "haloa", winkler=True, scaling=0.1)
0.76
>>> print distance.get_jaro_distance("hello", "haloa", winkler=False, scaling=0.1)
0.733333333333
Version:1.8 of 2016-03-22

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java有没有一种方法可以使用DesiredCapabilities在SeleniumWebDriver中获得非远程浏览器?   java逻辑和算术移位的输出   java如何以编程方式在Selenium中打开Safari>preferences?   java应用程序可以在javaws中更改自己的名称吗?   Java 7下的linux JAXB问题它说找不到RI 2.1.0   java解析来自Domino代理的JSON   java如何引用在不同类的main方法中声明的对象属性   java如何扩展apache FTPFile的功能?   java如何优化G1的暂停时间   java使用单个“更新”按钮将测试表的自动增量值插入分数表   针对UTF的regex Java电子邮件验证   java字节流问题   java 安卓将arraylist转换为自定义格式的一个字符串   java SQL语句到JTable   Java:带selfcontain计数器的while循环