Jaccard相似性文档管理器
jsim的Python项目详细描述
这个包使用jaccard与bag of words的相似性来查找传入内容之间的相似性 以及一个json文件。
有两个有用的功能:
- 保存(filename,docid,contents)==>;接受json文件名,即要保存的文档的id,
- 和字符串形式的文档内容。该函数添加 文件名的docID和内容,如果文件名不存在,则 创建新文件并插入传入的内容。
- def getsimilogies(filename,docid,contents,threshold)==>;将所有文档的文件名带入
- 要与之比较,所需文档的docid 为了找到相似之处, 文档,0和之间的相似性阈值 包括1个。函数返回 (相似性,docid)按降序排列 相似性大于或等于的文件 达到临界值。