用于在存储库之间获取OAI-PMH元数据的Invenio模块。
invenio-oaiharvester的Python项目详细描述
用于在存储库之间获取OAI-PMH元数据的Invenio模块。
- 免费软件:gplv2许可证
- 文档:https://invenio-oaiharvester.readthedocs.org。
这是一个实验性的开发预览版本。
功能
这个模块允许您轻松地获取oai-pmh存储库,这要感谢Sickle模块,并为 输出到您的摄取工作流中,或直接输出到文件中。您可以配置 您的OAI-PMH通过Web界面提供资源,并运行或计划立即捕获作业 通过命令行或定期通过Celery beat。
收获很简单
inveniomanage oaiharvester get -u http://export.arxiv.org/oai2 -i oai:arXiv.org:1507.07286 > my_record.xml
这将获取特定记录的存储库并将记录打印到stdout,在本例中,stdout会将其保存到名为my_record.xml的文件中。
如果您想将收获的记录自动保存到目录中,这很简单:
inveniomanage oaiharvester get -u http://export.arxiv.org/oai2 -i oai:arXiv.org:1507.07286 -o dir
注意output-o参数,该参数指定如何输出收获的记录。这三个选项是:
- Sent to a workflow (E.g. -o workflow)
- Saved files in a folder (E.g. -o dir)
- Printed to stdout (default)
使用工作流获取
inveniomanage oaiharvester get -u http://export.arxiv.org/oai2 -i oai:arXiv.org:1507.07286 -o workflow
当您向工作流发送已收获的记录时,您可以处理已收获的记录 文件,但你想,然后甚至自动上传到你自己的存储库。
本模块已经提供了一些
管理OAI-PMH来源
如果要存储OAI存储库的配置,可以使用 通过管理面板提供管理界面。如果您经常需要查询服务器,这将非常有用。
在这里,您可以添加有关服务器URL、要使用的元数据前缀等的信息。在计划和运行任务时,也可以使用此信息:
inveniomanage oaiharvester get -n somerepo -i oai:example.org:1234
在这里,我们使用-n,-name参数按名称指定要查询的存储OAI-PMH源。
API
如果您需要通过python计划或运行收获,可以使用我们的api:
frominvenio_oaiharvester.apiimportget_recordsforrecinget_records(identifiers=["oai:arXiv.org:1207.7214"],url="http://export.arxiv.org/oai2"):printrec.raw
更改
版本0.1.1(2015-08-25发布)
- 添加缺少的invenio_upgrader依赖项并修正以前的升级 将配方分离成独立的包。
- 修复因Invenio工作流分离而导致的导入。(9)
版本0.1.0(2015-08-14发布)
- 首次公开发行