从支持OAI-PMH的提供商收集记录的收割机。
oaiharvest的Python项目详细描述
内容
说明
从支持OAI-PMH的提供商收集记录的收割机。
收割机可用于对所有 通过提供其基本URL从特定OAI-PMH提供程序记录。它 也可用于选择性采集,例如仅采集记录 在指定日期之后或之前更新。
协助从一个或多个OAI-PMH供应商处定期收获, 有一个提供者注册中心。有可能会联想到 提供程序的难忘名称及其基本URL、目标目录 对于已获取的记录,以及记录的格式(metadataprefix) 应该收割。登记处还将记录 最近的收获,并自动将其添加到后续 请求以避免重复获取未修改的记录。
这可以与调度程序(例如cron)一起使用,以 在一个或多个记录中保存一份合理的最新副本 提供者。Examples关于如何完成这些任务的信息 下面。
文档
所有可执行命令都是自文档化的,即您可以在 如何将它们与-h或--help选项一起使用。
此时可以找到唯一存在的附加文档。 在这个自述文件中!
要求/依赖性
注意,python 3.x支持需要pyoai 2.4.6+。
由于此版本在pypi上尚不可用,请使用 pip3 install git+https://github.com/infrae/pyoai.git
python3的支持仍处于测试阶段,可能有一些bug。
安装
用户
pip install git+http://github.com/bloomonkey/oai-harvest.git#egg=oaiharvest
开发人员
我建议您使用virtualenv来隔离您的开发 来自系统Python和任何可能安装的包的环境 在那里。
在GitHub中,分叉存储库
克隆您的叉子:
git clone git@github.com:<username>/oai-harvest.git
使用tox设置开发virtualenv:
pip install tox tox -e dev
激活开发虚拟机:
-尼克斯:
source env/bin/activate
窗口:
env\Scripts\activate
错误、功能请求等。
bug报告和特性请求可以提交给github问题 跟踪器: http://github.com/bloomonkey/oai-harvest/issues
如果你想贡献代码,补丁等,请发邮件给作者, 或者在github上提交请求。
示例
从OAI-PMH提供程序URL获取记录
所有记录
oai-harvest http://example.com/oai
某个日期之后修改的记录
oai-harvest --from 2013-01-01 http://example.com/oai
来自命名集的记录
oai-harvest --set "some:set" http://example.com/oai
限制要采集的记录数
oai-harvest --limit 50 http://example.com/oai
获得所有可用选项的帮助
oai-harvest --help
OAI-PMH提供程序注册表
添加提供者
oai-reg add provider1 http://example.com/oai/1
如果不提供--metadataPrefix和--directory选项, 系统将以交互方式提示您提供替代方案,或接受 默认值。
oai-reg rm provider1 [provider2]
oai-reg list
从注册表中的OAI-PMH提供者获取
您可以使用 他们注册的简称:
oai-harvest provider1 [provider2]
默认情况下,这将获取自上次修改后的所有记录 从每个供应商那里收获。你可以利用 --from和--until选项。
您还可以从注册表中的所有提供程序获取:
oai-harvest all
定期收割计划
为了保持所有 由这些提供程序保存的记录,可以将调度程序配置为 定期从所有注册提供商获取。例如,告诉克朗 要在每天凌晨2点收割,可以添加以下内容 crontab:
0 2 * * * oai-harvest all