特克斯姆
texim的Python项目详细描述
纺织
文本相似度 文本相似性工具,它更适合记录链接!在
说明
texim是文本相似性工具,用于记录链接任务。
对于余弦和jaccard相似性,我们提出了两点:
- 长度敏感重量
- 场匹配的半匹配方法
重量类型
经典的余弦相似性使用TF-IDF作为令牌的权重,这里我们使用TF来表示短字符串。记录链接与某个字段匹配是很常见的。比如姓名,邮箱,地址等等。在
我们这里有3种重量类型:
- tf:令牌的令牌频率
- len:令牌的长度
- 1:施工图1
半匹配
缩写词对我们来说很常见,“alanturing”vs“a turing”,而semi match可以匹配“alan”=“a”和“turing”=“turing”。在
安装
pip install texim
示例
^{pr2}$通知
- 所有字段都需要转换为小写。在
- 你可以打电话来纺织余弦以及提克丝直接如果你需要一个定制的代币切割和重量计数。在
电子邮件
检查设置.py请!在
- 项目
标签: