收集珍贵的数字化报纸文章的工具。

troveharvester的Python项目详细描述


转子收割机

这是从Trove中获取大量数字化报纸文章的工具。

它已经在MacOS和Windows7上进行了测试,应该可以在Python2.7和Python3上正常工作。

安装选项

不需要安装!

如果您想在不安装任何东西的情况下使用收获机,只需转到glam工作台中的Trove Newspaper Harvester存储库。

通过Docker安装

假设您已经安装并运行Docker,只需启动一个TroveHarvester容器:

    $ docker run -v $(pwd):/troveharvester/data -it wragge/troveharvester /bin/bash

注意,这将把收获的数据存储在本地文件系统的当前工作目录中。

通过PIP安装

假设您已经安装了python和Virtualenv,那么:

    $ virtualenv mytroveharvests
    $ cd mytroveharvests
    $ source bin/activate
    $ pip install troveharvester

在Windows上应该是:

    > virtualenv mytroveharvests
    > cd mytroveharvests
    > Scripts\activate
    > pip install troveharvester

基本用法

在收割之前,你需要给自己弄一张Trove API key

有三个基本命令:

  • start--开始新的收获
  • 重新启动--重新启动暂停的收获
  • 报告--查看收获详细信息

开始收割

要开始新的收获,您只需执行以下操作:

    $ cd mytroveharvests
    $ source bin/activate
    $ troveharvester start "[Trove query]"[Trove API key]

或在Windows上:

    > cd mytroveharvests
    > Scripts\activate
    > troveharvester start "[Trove query]"[Trove API key]

trove查询可以是从Trove web interface中的搜索复制并粘贴的url副本,也可以是使用Trove API Console之类的内容构造的trove api查询url。用双引号将url括起来。

将自动创建一个data目录来保存所有收获。每个收获都将保存到一个名为current timestamp的目录中。获取的文章的详细信息将写入名为results.csv的csv文件。收获配置详细信息也保存到metadata.json文件中。

选项:

--最大值[整数] 指定要收获的文章的最大数量(20倍数)

--PDF格式 将每个文件的副本保存为pdf格式(这会使收获速度变慢,因为必须为每个pdf生成留出几秒钟)

--文本 将每篇文章的ocrd文本保存到单独的.txt文件中

重新开始收割

事情出了差错,收成中断了。如果您的收成在该收成之前停止,您可以这样做:

    $ troveharvester restart

默认情况下,脚本将尝试重新启动最近的收获。您还可以重新开始较早的收割:

    $ troveharvester restart --harvest [harvest timestamp]

获取收获的摘要

如果您想快速检查收割状态,请尝试:

    $ troveharvester report

默认情况下,脚本将报告最近的收获。您可以获得早期收获的摘要:

    $ troveharvester report --harvest [harvest timestamp]

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java变量始终存储0值。为什么?   如何使用Java/REST将Azure blob从一个存储容器移动到另一个存储容器?   java将commons DBCP从1.2升级到1.4,我应该害怕吗?   java如何使用分隔符拆分字符串?   java使用数组读取json对象   java在groovy中切片字符串   交换数组java的两个邻域元素   java移动用于确定字符串是否为回文的逻辑   java Android应用程序在一个活动中崩溃   java Sparkjava将webapp文件夹设置为静态资源/模板的文件夹   java复杂条件表达式,用户易用。   java如何仅在表存在时从表中选择值   java I无法将数据从Recyclerview传递到其他活动   java数据结构最佳设计(大数据)   java Android从DatePickerDialogFragment中删除日历视图   java将数据从Firebase获取到片段   数组。sort()在java中运行不正常