基于soundex的印度语模糊字符串搜索算法
inexactsearch的Python项目详细描述
这是一个Fuzzy string search 申请。此应用程序演示了Edit distance和 Indic Soundex算法。
< P>混合文字(编辑距离)和声音(Soudix), 我们实现了一个高效的近似字符串搜索。此应用程序 也可以跨语言字符串搜索。也就是说,你可以 在马拉雅拉姆语文本中搜索印地语单词。如果有马拉雅拉姆语的话, 这是印地语单词的近似音译,或发音相似。 印地语单词,将作为一个近似匹配返回。这个 这里使用的“类似写”算法是bigram平均算法。这个 两个字符串中常见双字图的比率和双字图的平均数目 将给出一个大于零且小于零的因子 比1.同样,soundex算法也给出了权重。由 选择比较权重大于阈值的词 权重(0.6),我们得到搜索结果。