自动化系统审查

asreview的Python项目详细描述


自动系统审查

生成状态documentation status


该项目正在进行中,尚未准备好生产。


系统的审查是研究中的"首要任务"。系统的数量 研究人员发表的评论逐年增加。但是表演 健全的系统审查是一项耗时的工作,有时是枯燥的。我们的 软件旨在加速筛选摘要和标题的步骤 只有最少的论文可供人阅读,没有或只有很少的假底片。

我们的自动化系统审查(ASR)软件实现了Oracle和 模拟模式。

  • OracleOracle modus用于对 评论者的互动(关于主动学习的文献中的"先知")。 软件将论文提交给审稿人,审稿人对论文进行分类。
  • 模拟模拟模型用于测量 现有系统评审软件。软件显示了 在系统评估期间,您可能跳过的论文。

完整的文档可从https://asreview.readthedocs.io获得

这个自动系统审查软件是作为 研究项目。本研究计画由多个资料库组成。这个 以下职位是(或将成为)公开的:

目录

复习论文的主动学习

ASR项目实现了交互式查询 研究员.这种互动训练方式被称为 主动学习。 ASR软件为经典学习算法和 最先进的学习算法,如神经网络。下图 提供流程概述。

复习论文的主动学习291813792001392839294547\ --prior_included 3190892389839894390 --log_file results.log

示例输出:

Start review in 'oracle' mode.
Prepare dataset.
Start with the Systematic Review.

Annual research review: The experience of youth with political conflict -
Challenging notions of resilience and encouraging research refinement
Barber, B. K.

Aims and method Drawing on empirical studies and literature reviews, this
paper aims to clarify and qualify the relevance of resilience to youth
...
Authors. Journal of Child Psychology and Psychiatry © 2013 Association for
Child and Adolescent Mental Health.

Include [1] or exclude [0]:

此命令(asreview oracle)在 您的数据.csv数据集。传递包含先前的 这应该包括在内,而previor_excluded是文件的id 那肯定是被排除在外的。包含/排除论文的数量越多, ASR软件将更快地理解您的选择。 身份证是文件的识别者,从 0表示在数据集中找到的第一篇论文。

要对已执行的审阅进行基准测试,请使用模拟模式(asreview simulation)。 然后,数据集需要一个额外的列("label_included")来表示它们的包含 在最后的审查中。模拟模式的命令类似于oracle 模式:

asreview simulate YOUR_DATA.csv --prior_included 291813792001392839294547\ 
  --prior_included 3190892389839894390 --log_file results.log

技术

有许多不同的查询策略。 以及可用的重新平衡策略。 基于lstm神经网络的模型是目前性能最好的优化模型。 默认情况下,ASR软件将使用在我们可用的数据集上调整的模型。 模型、查询策略和重新平衡策略的调整也可以 通过cli或api。

数据集

ASR软件接受RIS和CSV文件格式的数据集。ris 文件由Digital使用 库,如ieee xplore、scopus和sciencedirect。引文管理员 Mendeley和Endnote也支持RIS格式。对于模拟,我们使用 带有字母li的附加RIS标签。对于csv文件,软件接受 与RIS文件中使用的标签一致的一组预先确定的标签。拜托 请参阅项目自动系统审查 数据集用于 完整的标准。

发展和贡献

  • 使用yapf作为python代码的格式化程序。

入口点

使用python-m asreview将模块作为main运行。当 调试cli和入口点。

python -m asreview oracle yourfile.csv

与:

asreview oracle yourfile.csv

使用pickle数据集进行调试

结合嵌入层使用ASR软件 计算密集型。对维基百科词汇进行分类是主要的 计算时间过长的原因。这些问题导致 阿穆在hpc集群上浪费计算时间的nt。因此,我们使用 pickle文件以加速初始化。

克隆仿真库 在这个仓库旁边。现在您可以使用下面的代码调试代码:

python -m asreview oracle ../automated-systematic-review-simulations/pickle/ptsd_vandeschoot_words_20000.pkl --n_instances 5

嵌入文件

嵌入文件包含预训练的模型权重。重量用作 神经网络的先验知识。默认情况下,这些权重存储在 用户~/asr_data文件夹。您可以下载嵌入文件 以下命令:

fromasreview.models.embeddingimportdownload_embeddingdownload_embedding()

可以设置环境变量以更改默认文件夹。

pip install asreview
0

出版物

引文

一篇关于这个项目的研究论文即将发表。同时,还可以引用(版本号填X和Y):

pip install asreview
1

双唇:

pip install asreview
2

联系人和贡献者

这个项目是美国国防部进行的研究工作的一部分。 乌得勒支社会与行为科学学院方法与统计 荷兰大学。

如有任何问题或意见,请与雷恩斯范德肖特教授联系。 (a.g.j.vandeschoot@uu.nl)。

研究人员:

工程师和学生:

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JavaHTTP。请求侦听器   java Selenium webdriver遍历行并仅检索某些列   JavaSpring批处理在启动运行方法之前启动SimpleZoblancher运行方法   maven如何使用Maven2从javadoc生成java源代码?   java为什么我的Unicodont(Slick2D)不画画?   java取消对未使用对象的引用是否会提高冗长方法的性能?   java可执行Jar的画布比使用Eclipse Runner的小   为什么我的for循环在Android studio中与eclipse(java)产生不同的结果   java代码段字节数组到端口号   java在DynamoDB范围键中插入项   java 安卓。看法WindowManager$BadTokenException:无法添加窗口,您的活动正在运行吗?   java我想要两个列表视图同时滚动   java测试数据分离   java Saxon:每次重新部署后都需要重新启动Glassfish