Python styleclass包_程序模块 - PyPI

引文式分类器

styleclass的Python项目详细描述

引文式分类器

引用样式分类器可以从引用字符串自动推断引用样式。分类器是在90000个参考字符串上训练的logistic回归模型。默认情况下支持以下引文样式：

ACM SIG程序
美国化学学会
有头衔的美国化学学会
美国物理学会
美国社会学协会
亚太地区
BMC生物信息学
芝加哥作者日期
无标题的爱思唯尔
带标题的Elsevier
Harvard3
ieee
ISO690作者日期en
现代语言协会
springer basic作者日期
计算机科学中的斯普林格讲稿
温哥华
未知

该软件包包含训练数据、分类模型和特征提取、选择、训练和预测代码。

安装

    pip3 install styleclass

分类

从命令行：

    styleclass_classify -r "reference string"
    styleclass_classify -i /file/with/reference/strings/one/per/line -o /output/file

在python代码中：

    from styleclass.classify import classify
    from styleclass.train import get_default_model

    model = get_default_model()
    prediction = classify("reference string", *model)
    prediction = classify(["reference string #1", "reference string #2", "reference string #3"], *model)

数据

styleClass包包含two datasets：训练集和测试集。每一个都包含一个5000个doi的样本，格式为17种引文样式（见上表），其中给出了85000个引用字符串。这两个数据集都是使用crossref rest api自动生成的。

可以使用脚本styleclass_generate_dataset生成新的数据集。

型号

default model是在训练数据集上训练的。在训练之前，数据集被清理，并被随机噪声丰富。还生成了5000个具有“未知”样式的字符串并将其添加到数据集中。

脚本styleclass_train_model可用于训练新模型。这是非常有用的，尤其是当你需要操作一组不同于我们默认的引文样式时。脚本为培训准备数据，与为默认模型的培训所做的相同。

评估

在精度方面，

^ {CD3>}可用于测试测试集上的Excel模型。

在我们的测试集上估计的默认模型的准确性是95%。

欢迎加入QQ群-->： 979659372

styleclass 0.0.4

styleclass的Python项目详细描述

引文式分类器

安装

分类

数据

型号

评估

推荐PyPI第三方库

sphinx-navtree

openerp-web-view-editor

ccfreeze-loader

noter

sorna-client

yara-scanner

PyChess-Anderssen

iboto

zoort

influx-prompt

cavejohnson

dj-jkabachcha

gmsh-sdk

adminschUtils

wpconfigr

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

styleclass 0.0.4

styleclass的Python项目详细描述

引文式分类器

安装

分类

数据

型号

评估

推荐PyPI第三方库

sphinx-navtree

openerp-web-view-editor

ccfreeze-loader

noter

sorna-client

yara-scanner

PyChess-Anderssen

iboto

zoort

influx-prompt

cavejohnson

dj-jkabachcha

gmsh-sdk

adminschUtils

wpconfigr

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签