Jaccard相似性文档管理器

jsim的Python项目详细描述


这个包使用jaccard与bag of words的相似性来查找传入内容之间的相似性 以及一个json文件。

有两个有用的功能:

保存(filename,docid,contents)==>;接受json文件名,即要保存的文档的id,
和字符串形式的文档内容。该函数添加 文件名的docID和内容,如果文件名不存在,则 创建新文件并插入传入的内容。
def getsimilogies(filename,docid,contents,threshold)==>;将所有文档的文件名带入
要与之比较,所需文档的docid 为了找到相似之处, 文档,0和之间的相似性阈值 包括1个。函数返回 (相似性,docid)按降序排列 相似性大于或等于的文件 达到临界值。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
spring引导服务器忽略java上载请求   java多个驼峰路由会导致大量线程吗?   java 安卓单签入回收器gridLayout管理器   Java中指向类的不同实例的对象数组   java的启动/停止和打开/关闭等分组功能是否违反了单一责任原则?   java hibernate组件映射与自定义值类型   java如何使用不同的JDK在Jenkins作业中使用JDK8   java从匹配器获取字符串的特定部分   java通过在Spark数据框内的数组列中映射来创建新列   servlet的java Tomcat配置   java多个活动不在一个应用程序安卓 studio中   javajsf:view beforePhase在我离开页面时多次触发   javascript如何使用“java脚本”进行加密,使用和“java”进行解密   java My App不是从URL ASPX读取简单的JSON   java在RESTish web服务中应用DDD原则