你的项目简介
plagiarism的Python项目详细描述
用于检测源代码中剽窃的库。在线评委的用户, 教师,开发人员,也许还有律师。
剽窃使用的方法[这里](http://…)。基本思想是 根据不同的度量标准对每个提交的文件进行分类,并执行 一系列基于k-均值的聚类来确定哪些对象是最重要的 彼此相似。这种方法有n个logn开销,而且扩展性相当好 大样本。
该算法可以应用于自然文本、源代码,甚至可以 适合在任意数据结构上运行(例如 计算机程序,asm输出,甚至二进制可执行文件)。它需要一些调整 对于每个应用程序,精度可能因应用程序而异。 对python和c源代码进行分级时,应该会得到更好的结果。性能 在其他编程语言中,甚至在其他领域中可能会有所不同。