特克斯姆

texim的Python项目详细描述


纺织

文本相似度 文本相似性工具,它更适合记录链接!在

说明

texim是文本相似性工具,用于记录链接任务。
对于余弦jaccard相似性,我们提出了两点:

  • 长度敏感重量
  • 场匹配的半匹配方法

重量类型

经典的余弦相似性使用TF-IDF作为令牌的权重,这里我们使用TF来表示短字符串。记录链接与某个字段匹配是很常见的。比如姓名,邮箱,地址等等。在

我们这里有3种重量类型:

  • tf:令牌的令牌频率
  • len:令牌的长度
  • 1:施工图1

半匹配

缩写词对我们来说很常见,“alanturing”vs“a turing”,而semi match可以匹配“alan”=“a”和“turing”=“turing”。在

安装

pip install texim 

示例

^{pr2}$

通知

  • 所有字段都需要转换为小写。在
  • 你可以打电话来纺织余弦以及提克丝直接如果你需要一个定制的代币切割和重量计数。在

电子邮件

检查设置.py请!在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用jain api上的编解码器信息自动创建sdp消息   显示素数误报的java程序   java如何从存储x、y值和整数索引之间的时间变化的两个数组列表创建动画?   java CompletableFuture:转换与组合   具有多个in运算符的java CrudePository findBy方法签名?   java:扩展小程序进程超时   java如何做mvn scm插件匿名pserver cvs访问   java如何在选中项目时将项目从一个活动发送到另一个活动   java存储子网的最佳数据结构,用于将Ip地址与子网匹配   java Jackson序列化以报告无法序列化的字段列表   如何将java mysql连接器导入IntelliJ?   如果java只在构造函数中编写,它是线程安全的集合吗?   java正则表达式捕获组在OR运算符后返回null   java使用Jackson在运行时将实体动态序列化为其ID或完整表示形式