收集珍贵的数字化报纸文章的工具。
troveharvester的Python项目详细描述
转子收割机
这是从Trove中获取大量数字化报纸文章的工具。
它已经在MacOS和Windows7上进行了测试,应该可以在Python2.7和Python3上正常工作。
安装选项
不需要安装!
如果您想在不安装任何东西的情况下使用收获机,只需转到glam工作台中的Trove Newspaper Harvester存储库。
通过Docker安装
假设您已经安装并运行Docker,只需启动一个TroveHarvester容器:
$ docker run -v $(pwd):/troveharvester/data -it wragge/troveharvester /bin/bash
注意,这将把收获的数据存储在本地文件系统的当前工作目录中。
通过PIP安装
假设您已经安装了python和Virtualenv,那么:
$ virtualenv mytroveharvests $ cd mytroveharvests $ source bin/activate $ pip install troveharvester
在Windows上应该是:
> virtualenv mytroveharvests > cd mytroveharvests > Scripts\activate > pip install troveharvester
基本用法
在收割之前,你需要给自己弄一张Trove API key。
有三个基本命令:
- start--开始新的收获
- 重新启动--重新启动暂停的收获
- 报告--查看收获详细信息
开始收割
要开始新的收获,您只需执行以下操作:
$ cd mytroveharvests $ source bin/activate $ troveharvester start "[Trove query]"[Trove API key]
或在Windows上:
> cd mytroveharvests > Scripts\activate > troveharvester start "[Trove query]"[Trove API key]
trove查询可以是从Trove web interface中的搜索复制并粘贴的url副本,也可以是使用Trove API Console之类的内容构造的trove api查询url。用双引号将url括起来。
将自动创建一个data
目录来保存所有收获。每个收获都将保存到一个名为current timestamp的目录中。获取的文章的详细信息将写入名为results.csv
的csv文件。收获配置详细信息也保存到metadata.json
文件中。
选项:
--最大值[整数] 指定要收获的文章的最大数量(20倍数)
--PDF格式 将每个文件的副本保存为pdf格式(这会使收获速度变慢,因为必须为每个pdf生成留出几秒钟)
--文本
将每篇文章的ocrd文本保存到单独的.txt
文件中
重新开始收割
事情出了差错,收成中断了。如果您的收成在该收成之前停止,您可以这样做:
$ troveharvester restart
默认情况下,脚本将尝试重新启动最近的收获。您还可以重新开始较早的收割:
$ troveharvester restart --harvest [harvest timestamp]
获取收获的摘要
如果您想快速检查收割状态,请尝试:
$ troveharvester report
默认情况下,脚本将报告最近的收获。您可以获得早期收获的摘要:
$ troveharvester report --harvest [harvest timestamp]