计算在另一个文件2中找到的来自文件1的n元组的百分比

PlagiarismDetector的Python项目详细描述


计算在另一个文件2中找到的来自文件1的n元组的百分比:

from plagiarismdetector.detector import Detector

print Detector.detect(synonyms_file_path,
                       eval_file_path,
                       source_file_path,
                       n_tuples_value=3)

运行

python plagiarismdetector/main.py synonyms_file_path eval_file_path source_file_path 3

假设和概述

  • 取决于python2.7
  • 标记器仅适用于使用penn treebank标记器的英语文本,原因是它根据英语中可能在其他语言(如印地语)中失败的结构划分字符串,因为句子分隔符和标点符号完全不同。
  • 模块被优化为尽可能快,一些优化是:
    • 只生成和存储文件2的n个g,生成但不存储文件1的n个元组。
    • 不在内存中保存生成的n个程序,将使用生成器
    • n-grams字典是从file2n-grams创建的,用于file1元组的恒定时间查找
    • 文件2ngram字典中的密钥包含元组的散列,而不是实际的元组,以减少空间复杂度。
    • 因为我们只关心在file2中找到的file1 n元组的百分比,所以不需要存储任何元组。因此,我们首先为file2生成n-grams,然后动态计算file1的计数,而不是生成file1的所有n元组并将其与file2的元组交叉引用。

测试

python -m unittest discover tests

帮助

python plagiarismdetector/main.py -h

位置参数

^{tt4}$Path to file to be used for synonyms
^{tt5}$Path to file to be evaluated
^{tt6}$Path to file to be used as source for matching
^{tt7}$Number of N-tuples, Optional and Defaults to 3

可选参数

-h, --helpshow this help message and exit

示例

Returns100.0
Evaluation Filego for a run
Source Filego for a jog
N-tuples3

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java FloatingAction按钮与RecyclerView中的CardView重叠   java如何计算CardLayout中的卡数   从远程系统上传MySQL数据库并访问Java应用程序   java调用堆栈如何处理带或不带返回类型的递归?   Springboot中的java组计数聚集   java如何在javafx textarea中使用richtextfx   获取与Mockito相关的错误时出现Java问题   java如何将JaxRS响应转换为Wiremock响应   Hadoop集群java。net ConnectionException:连接被拒绝错误   java如何加载文件私有文件类型是pem   java在元空间中的提升和加载的类   如何将系统属性传递给从HTML启动的Java小程序   java如何从网页中获取值并在主类中使用它?安卓应用   java在春天,advisor和aspect之间有什么区别?   java如何检测文件是否已重命名?   java消息驱动Bean何时使用