KnowSim,知道你的相似之处
knowsim的Python项目详细描述
知识
知道,知道你的意思
文本相似度计算器
Cossine,Simhash,Minhash相似度计算器
Knowsim的优势在于:
- 关注文本相似度比较
- 采用余弦计算和simhash算法
- 100%Python语言
- 自动TFIDF筛选
- TF和IDF可以分开计算
- 支持列表和文件
- 支持多文件相似度比较
- 高效快捷
- 易于安装
- 100%开源
- 长期维护和更新
下载并安装
PIP安装:
$ pip3 install knowsim
如果在中国发展缓慢,你可以用清华的形象:
^{pr2}$使用方法
计算文本相似度
余弦相似性
importknowsimasksks.cossim(Input1,Input2)
Simhash和Minhash相似性
importknowsimasks# Simhashks.simhash(Input1,Input2)# Minhashks.minhash(Input1,Input2)
- 在计算文本相似度时,由TFIDF自动过滤
- Input1-第一个输入值,可以是文件或列表的地址
- Input2-第二个输入值,可以是文件或列表的地址
计算TF,IDF,TFIDF
importknowsimasksks.GetTF(Input)ks.GetIDF(Input)ks.GetTFIDF(Input)
- 输入-输入值,可以是文件或列表的地址
- 用于计算文本相似性的输入类型
- 目前支持两种熟人类型:档案和列表档案
MIT许可证
版权所有(c)[2020][Kiwirafe]
兹免费准许任何人取得复制品 本软件及其相关文档文件(“软件”)的 在软件中不受限制,包括但不限于权利 使用、复制、修改、合并、发布、分发、再授权和/或出售 软件的副本,并允许软件的使用者 根据以下条件提供:
上述版权声明和本许可声明应包括在所有 软件的副本或大部分。在
本软件按“原样”提供,无任何形式的保证,明示或 包括但不限于适销性保证, 特定目的的适用性和非侵犯性。在任何情况下 作者或版权持有人应对任何索赔、损害赔偿或其他 无论是在合同诉讼、侵权诉讼或其他诉讼中,由以下原因引起的责任:, 与软件、软件的使用或其他交易有关 软件。在
- 项目
标签: