引文式分类器

styleclass的Python项目详细描述


引文式分类器

引用样式分类器可以从引用字符串自动推断引用样式。分类器是在90000个参考字符串上训练的logistic回归模型。默认情况下支持以下引文样式:

  • ACM SIG程序
  • 美国化学学会
  • 有头衔的美国化学学会
  • 美国物理学会
  • 美国社会学协会
  • 亚太地区
  • BMC生物信息学
  • 芝加哥作者日期
  • 无标题的爱思唯尔
  • 带标题的Elsevier
  • Harvard3
  • ieee
  • ISO690作者日期en
  • 现代语言协会
  • springer basic作者日期
  • 计算机科学中的斯普林格讲稿
  • 温哥华
  • 未知

该软件包包含训练数据、分类模型和特征提取、选择、训练和预测代码。

安装

    pip3 install styleclass

分类

从命令行:

    styleclass_classify -r "reference string"
    styleclass_classify -i /file/with/reference/strings/one/per/line -o /output/file

在python代码中:

    from styleclass.classify import classify
    from styleclass.train import get_default_model

    model = get_default_model()
    prediction = classify("reference string", *model)
    prediction = classify(["reference string #1", "reference string #2", "reference string #3"], *model)

数据

styleClass包包含two datasets:训练集和测试集。每一个都包含一个5000个doi的样本,格式为17种引文样式(见上表),其中给出了85000个引用字符串。这两个数据集都是使用crossref rest api自动生成的。

可以使用脚本styleclass_generate_dataset生成新的数据集。

型号

default model是在训练数据集上训练的。在训练之前,数据集被清理,并被随机噪声丰富。还生成了5000个具有“未知”样式的字符串并将其添加到数据集中。

脚本styleclass_train_model可用于训练新模型。这是非常有用的,尤其是当你需要操作一组不同于我们默认的引文样式时。脚本为培训准备数据,与为默认模型的培训所做的相同。

评估

在精度方面,

^ {CD3>}可用于测试测试集上的Excel模型。

在我们的测试集上估计的默认模型的准确性是95%。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
连接Java Rest服务   为每个不工作的循环更改数组值   java如何在删除某个元素后重新绘制GUI?   java混淆了共享maven模块?   Java在2d数组中计算重复数   未从TomCat上的Jar文件加载java类   JavaFX SceneBuilder中的java每月概览   java对于参数类型double,Point2D,运算符*未定义。双重的   java错误:类AcceptedFriendAction中的构造函数AcceptedFriendAction无法应用于给定类型;   eclipse java如何限制文本字段?   java无法执行目标组织。阿帕奇。专家插件:mavencompilerplugin:3.8.1:编译   macos Java无法启动jar文件   spring java代理向上游应用程序传递请求   java如何解决:错误:任务“:app:kaptDebugKotlin”的执行失败?   java在构造函数中完成类的主要工作时有什么问题吗?