引文式分类器
styleclass的Python项目详细描述
引文式分类器
引用样式分类器可以从引用字符串自动推断引用样式。分类器是在90000个参考字符串上训练的logistic回归模型。默认情况下支持以下引文样式:
- ACM SIG程序
- 美国化学学会
- 有头衔的美国化学学会
- 美国物理学会
- 美国社会学协会
- 亚太地区
- BMC生物信息学
- 芝加哥作者日期
- 无标题的爱思唯尔
- 带标题的Elsevier
- Harvard3
- ieee
- ISO690作者日期en
- 现代语言协会
- springer basic作者日期
- 计算机科学中的斯普林格讲稿
- 温哥华
- 未知
该软件包包含训练数据、分类模型和特征提取、选择、训练和预测代码。
安装
pip3 install styleclass
分类
从命令行:
styleclass_classify -r "reference string"
styleclass_classify -i /file/with/reference/strings/one/per/line -o /output/file
在python代码中:
from styleclass.classify import classify
from styleclass.train import get_default_model
model = get_default_model()
prediction = classify("reference string", *model)
prediction = classify(["reference string #1", "reference string #2", "reference string #3"], *model)
数据
styleClass包包含two datasets:训练集和测试集。每一个都包含一个5000个doi的样本,格式为17种引文样式(见上表),其中给出了85000个引用字符串。这两个数据集都是使用crossref rest api自动生成的。
可以使用脚本styleclass_generate_dataset
生成新的数据集。
型号
default model是在训练数据集上训练的。在训练之前,数据集被清理,并被随机噪声丰富。还生成了5000个具有“未知”样式的字符串并将其添加到数据集中。
脚本styleclass_train_model
可用于训练新模型。这是非常有用的,尤其是当你需要操作一组不同于我们默认的引文样式时。脚本为培训准备数据,与为默认模型的培训所做的相同。
评估
在精度方面,^ {CD3>}可用于测试测试集上的Excel模型。
在我们的测试集上估计的默认模型的准确性是95%。