自动化系统审查
asreview的Python项目详细描述
自动系统审查
该项目正在进行中,尚未准备好生产。
系统的审查是研究中的"首要任务"。系统的数量 研究人员发表的评论逐年增加。但是表演 健全的系统审查是一项耗时的工作,有时是枯燥的。我们的 软件旨在加速筛选摘要和标题的步骤 只有最少的论文可供人阅读,没有或只有很少的假底片。
我们的自动化系统审查(ASR)软件实现了Oracle和 模拟模式。
- OracleOracle modus用于对 评论者的互动(关于主动学习的文献中的"先知")。 软件将论文提交给审稿人,审稿人对论文进行分类。
- 模拟模拟模型用于测量 现有系统评审软件。软件显示了 在系统评估期间,您可能跳过的论文。
完整的文档可从https://asreview.readthedocs.io获得
这个自动系统审查软件是作为
研究项目。本研究计画由多个资料库组成。这个
以下职位是(或将成为)公开的:目录
- 入口点
- 使用pickle数据集调试
复习论文的主动学习
ASR项目实现了交互式查询 研究员.这种互动训练方式被称为 主动学习。 ASR软件为经典学习算法和 最先进的学习算法,如神经网络。下图 提供流程概述。
291813792001392839294547\ --prior_included 3190892389839894390 --log_file results.log
示例输出:
Start review in 'oracle' mode.
Prepare dataset.
Start with the Systematic Review.
Annual research review: The experience of youth with political conflict -
Challenging notions of resilience and encouraging research refinement
Barber, B. K.
Aims and method Drawing on empirical studies and literature reviews, this
paper aims to clarify and qualify the relevance of resilience to youth
...
Authors. Journal of Child Psychology and Psychiatry © 2013 Association for
Child and Adolescent Mental Health.
Include [1] or exclude [0]:
此命令(asreview oracle
)在
您的数据.csv
数据集。传递包含先前的
这应该包括在内,而
previor_excluded
是文件的id
那肯定是被排除在外的。包含/排除论文的数量越多,
ASR软件将更快地理解您的选择。
身份证是文件的识别者,从
0表示在数据集中找到的第一篇论文。
要对已执行的审阅进行基准测试,请使用模拟模式(asreview simulation
)。
然后,数据集需要一个额外的列("label_included")来表示它们的包含
在最后的审查中。模拟模式的命令类似于oracle
模式:
asreview simulate YOUR_DATA.csv --prior_included 291813792001392839294547\ --prior_included 3190892389839894390 --log_file results.log
技术
有许多不同的查询策略。 以及可用的重新平衡策略。 基于lstm神经网络的模型是目前性能最好的优化模型。 默认情况下,ASR软件将使用在我们可用的数据集上调整的模型。 模型、查询策略和重新平衡策略的调整也可以 通过cli或api。
数据集
ASR软件接受RIS和CSV文件格式的数据集。ris
文件由Digital使用
库,如ieee xplore、scopus和sciencedirect。引文管理员
Mendeley和Endnote也支持RIS格式。对于模拟,我们使用
带有字母li
的附加RIS标签。对于csv文件,软件接受
与RIS文件中使用的标签一致的一组预先确定的标签。拜托
请参阅项目自动系统审查
数据集用于
完整的标准。
发展和贡献
- 使用yapf作为python代码的格式化程序。
入口点
使用python-m asreview将模块作为main运行。当 调试cli和入口点。
python -m asreview oracle yourfile.csv
与:
asreview oracle yourfile.csv
使用pickle数据集进行调试
结合嵌入层使用ASR软件 计算密集型。对维基百科词汇进行分类是主要的 计算时间过长的原因。这些问题导致 阿穆在hpc集群上浪费计算时间的nt。因此,我们使用 pickle文件以加速初始化。
克隆仿真库 在这个仓库旁边。现在您可以使用下面的代码调试代码:
python -m asreview oracle ../automated-systematic-review-simulations/pickle/ptsd_vandeschoot_words_20000.pkl --n_instances 5
嵌入文件
嵌入文件包含预训练的模型权重。重量用作
神经网络的先验知识。默认情况下,这些权重存储在
用户~/asr_data
文件夹。您可以下载嵌入文件
以下命令:
fromasreview.models.embeddingimportdownload_embeddingdownload_embedding()
可以设置环境变量以更改默认文件夹。
pip install asreview0
出版物
- 荷兰报纸NRC关于该项目的报道"software vist de beste artikelen uit een bibliotheek van duizeden"。
- 乌得勒支大学新闻网站:"数据集的数字跟踪器狗"
引文
一篇关于这个项目的研究论文即将发表。同时,还可以引用(版本号填X和Y):
pip install asreview1
双唇:
pip install asreview2
联系人和贡献者
这个项目是美国国防部进行的研究工作的一部分。 乌得勒支社会与行为科学学院方法与统计 荷兰大学。
如有任何问题或意见,请与雷恩斯范德肖特教授联系。 (a.g.j.vandeschoot@uu.nl)。
研究人员:
- Rens van de Schoot(a.g.j.vandeschoot@uu.nl,@rensvandeschoot)
- 丹尼尔·奥伯斯基(d.l.oberski@uu.nl,@daob)
工程师和学生:
- 巴黎扎赫迪(p.zahedi@uu.nl,@parisa zahedi)
- Jonathan de Bruin(j.debruin1@uu.nl,@j535d165)
- raoul schram(r.d.schram@uu.nl,@qubixes)
- Kees van Eijden(k.vaneijden@uu.nl,@kveijden)
- 七香坊(@fqixiang)
- 阿尔伯特·哈克马(a.d.harkema@uu.nl,@sasafrass)