从支持OAI-PMH的提供商收集记录的收割机。

oaiharvest的Python项目详细描述


https://travis-ci.org/bloomonkey/oai-harvest.svg?branch=masterLatest Versionlicense:BSD

说明

从支持OAI-PMH的提供商收集记录的收割机。

收割机可用于对所有 通过提供其基本URL从特定OAI-PMH提供程序记录。它 也可用于选择性采集,例如仅采集记录 在指定日期之后或之前更新。

协助从一个或多个OAI-PMH供应商处定期收获, 有一个提供者注册中心。有可能会联想到 提供程序的难忘名称及其基本URL、目标目录 对于已获取的记录,以及记录的格式(metadataprefix) 应该收割。登记处还将记录 最近的收获,并自动将其添加到后续 请求以避免重复获取未修改的记录。

这可以与调度程序(例如cron)一起使用,以 在一个或多个记录中保存一份合理的最新副本 提供者。Examples关于如何完成这些任务的信息 下面。

作者

约翰·哈里森,john.harrison@liv.ac.uk>;在University of Liverpool

最新版本

最新版本可在python包索引中找到:

https://pypi.python.org/pypi/oaiharvest

Latest PyPI Version

源代码受版本控制,可从以下网址获得:

http://github.com/bloomonkey/oai-harvest

文档

所有可执行命令都是自文档化的,即您可以在 如何将它们与-h--help选项一起使用。

此时可以找到唯一存在的附加文档。 在这个自述文件中!

要求/依赖性

注意,python 3.x支持需要pyoai 2.4.6+。

由于此版本在pypi上尚不可用,请使用 pip3 install git+https://github.com/infrae/pyoai.git

python3的支持仍处于测试阶段,可能有一些bug。

安装

用户

pip install git+http://github.com/bloomonkey/oai-harvest.git#egg=oaiharvest

开发人员

我建议您使用virtualenv来隔离您的开发 来自系统Python和任何可能安装的包的环境 在那里。

  1. GitHub中,分叉存储库

  2. 克隆您的叉子:

    git clone git@github.com:<username>/oai-harvest.git
    
  3. 使用tox设置开发virtualenv:

    pip install tox
    tox -e dev
    
  4. 激活开发虚拟机:

    -尼克斯:

    source env/bin/activate
    

    窗口:

    env\Scripts\activate
    

错误、功能请求等。

bug报告和特性请求可以提交给github问题 跟踪器: http://github.com/bloomonkey/oai-harvest/issues

如果你想贡献代码,补丁等,请发邮件给作者, 或者在github上提交请求。

示例

从OAI-PMH提供程序URL获取记录

所有记录

oai-harvest http://example.com/oai

某个日期之后修改的记录

oai-harvest --from 2013-01-01 http://example.com/oai

来自命名集的记录
oai-harvest --set "some:set" http://example.com/oai

限制要采集的记录数

oai-harvest --limit 50 http://example.com/oai

获得所有可用选项的帮助
oai-harvest --help

OAI-PMH提供程序注册表

添加提供者
oai-reg add provider1 http://example.com/oai/1

如果不提供--metadataPrefix--directory选项, 系统将以交互方式提示您提供替代方案,或接受 默认值。

< H4>删除现有的提供程序
oai-reg rm provider1 [provider2]
列出现有的提供者< /H4>
oai-reg list

从注册表中的OAI-PMH提供者获取

您可以使用 他们注册的简称:

oai-harvest provider1 [provider2]

默认情况下,这将获取自上次修改后的所有记录 从每个供应商那里收获。你可以利用 --from--until选项。

您还可以从注册表中的所有提供程序获取:

oai-harvest all

定期收割计划

为了保持所有 由这些提供程序保存的记录,可以将调度程序配置为 定期从所有注册提供商获取。例如,告诉克朗 要在每天凌晨2点收割,可以添加以下内容 crontab:

0 2 * * * oai-harvest all

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java提高机器学习Rest服务性能   java反转字符的字符串顺序,并使用构造函数将其放入LinkedList   继承为什么Java不支持在方法签名中添加“throws”?   执行DDL alter table if exists任务时发生java错误。城市   java在eclipse中使用CREATETXT并打包在jar中   java AES256与3DES 256密钥检测   具有两个相同类型字段的java JPA实体   java Webapp日志记录设置被忽略   java KeyEventDispatcher可以在一个应用程序中工作,但不能在另一个应用程序中工作   带有Swing和OpenJDK的java PinchZoom   未涉及java AspectJ注释切入点(对于任何注释类型)   java如何在FuseBAI中获取日志文件详细信息   java在Linux上将wstring转换为jstring