Python troveharvester包_程序模块 - PyPI

收集珍贵的数字化报纸文章的工具。

troveharvester的Python项目详细描述

转子收割机

这是从Trove中获取大量数字化报纸文章的工具。

它已经在MacOS和Windows7上进行了测试，应该可以在Python2.7和Python3上正常工作。

安装选项

不需要安装！

如果您想在不安装任何东西的情况下使用收获机，只需转到glam工作台中的Trove Newspaper Harvester存储库。

通过Docker安装

假设您已经安装并运行Docker，只需启动一个TroveHarvester容器：

    $ docker run -v $(pwd):/troveharvester/data -it wragge/troveharvester /bin/bash

注意，这将把收获的数据存储在本地文件系统的当前工作目录中。

通过PIP安装

假设您已经安装了python和Virtualenv，那么：

    $ virtualenv mytroveharvests
    $ cd mytroveharvests
    $ source bin/activate
    $ pip install troveharvester

在Windows上应该是：

    > virtualenv mytroveharvests
    > cd mytroveharvests
    > Scripts\activate
    > pip install troveharvester

基本用法

在收割之前，你需要给自己弄一张Trove API key。

有三个基本命令：

start--开始新的收获
重新启动--重新启动暂停的收获
报告--查看收获详细信息

开始收割

要开始新的收获，您只需执行以下操作：

    $ cd mytroveharvests
    $ source bin/activate
    $ troveharvester start "[Trove query]"[Trove API key]

或在Windows上：

    > cd mytroveharvests
    > Scripts\activate
    > troveharvester start "[Trove query]"[Trove API key]

trove查询可以是从Trove web interface中的搜索复制并粘贴的url副本，也可以是使用Trove API Console之类的内容构造的trove api查询url。用双引号将url括起来。

将自动创建一个data目录来保存所有收获。每个收获都将保存到一个名为current timestamp的目录中。获取的文章的详细信息将写入名为results.csv的csv文件。收获配置详细信息也保存到metadata.json文件中。

选项：

--最大值[整数] 指定要收获的文章的最大数量（20倍数）

--PDF格式将每个文件的副本保存为pdf格式（这会使收获速度变慢，因为必须为每个pdf生成留出几秒钟）

--文本将每篇文章的ocrd文本保存到单独的.txt文件中

重新开始收割

事情出了差错，收成中断了。如果您的收成在该收成之前停止，您可以这样做：

    $ troveharvester restart

默认情况下，脚本将尝试重新启动最近的收获。您还可以重新开始较早的收割：

    $ troveharvester restart --harvest [harvest timestamp]

获取收获的摘要

如果您想快速检查收割状态，请尝试：

    $ troveharvester report

默认情况下，脚本将报告最近的收获。您可以获得早期收获的摘要：

    $ troveharvester report --harvest [harvest timestamp]

欢迎加入QQ群-->： 979659372

troveharvester 0.2.2

troveharvester的Python项目详细描述

转子收割机

安装选项

不需要安装！

通过Docker安装

通过PIP安装

基本用法

开始收割

重新开始收割

获取收获的摘要

推荐PyPI第三方库

intake-stac

pympv

pdns

matrix-client-harmonyqt

apt-archive-tools

randomness_beacon

kenny-loggings

finsk

timeflow

pyfl

croaring

bib

brlcad

p01.editor

odoo9-addon-l10n-ar-base-country-state

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

troveharvester 0.2.2

troveharvester的Python项目详细描述

转子收割机

安装选项

不需要安装！

通过Docker安装

通过PIP安装

基本用法

开始收割

重新开始收割

获取收获的摘要

推荐PyPI第三方库

intake-stac

pympv

pdns

matrix-client-harmonyqt

apt-archive-tools

randomness_beacon

kenny-loggings

finsk

timeflow

pyfl

croaring

bib

brlcad

p01.editor

odoo9-addon-l10n-ar-base-country-state

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签