收集珍贵的数字化报纸文章的工具。

troveharvester的Python项目详细描述


转子收割机

这是从Trove中获取大量数字化报纸文章的工具。

它已经在MacOS和Windows7上进行了测试,应该可以在Python2.7和Python3上正常工作。

安装选项

不需要安装!

如果您想在不安装任何东西的情况下使用收获机,只需转到glam工作台中的Trove Newspaper Harvester存储库。

通过Docker安装

假设您已经安装并运行Docker,只需启动一个TroveHarvester容器:

    $ docker run -v $(pwd):/troveharvester/data -it wragge/troveharvester /bin/bash

注意,这将把收获的数据存储在本地文件系统的当前工作目录中。

通过PIP安装

假设您已经安装了python和Virtualenv,那么:

    $ virtualenv mytroveharvests
    $ cd mytroveharvests
    $ source bin/activate
    $ pip install troveharvester

在Windows上应该是:

    > virtualenv mytroveharvests
    > cd mytroveharvests
    > Scripts\activate
    > pip install troveharvester

基本用法

在收割之前,你需要给自己弄一张Trove API key

有三个基本命令:

  • start--开始新的收获
  • 重新启动--重新启动暂停的收获
  • 报告--查看收获详细信息

开始收割

要开始新的收获,您只需执行以下操作:

    $ cd mytroveharvests
    $ source bin/activate
    $ troveharvester start "[Trove query]"[Trove API key]

或在Windows上:

    > cd mytroveharvests
    > Scripts\activate
    > troveharvester start "[Trove query]"[Trove API key]

trove查询可以是从Trove web interface中的搜索复制并粘贴的url副本,也可以是使用Trove API Console之类的内容构造的trove api查询url。用双引号将url括起来。

将自动创建一个data目录来保存所有收获。每个收获都将保存到一个名为current timestamp的目录中。获取的文章的详细信息将写入名为results.csv的csv文件。收获配置详细信息也保存到metadata.json文件中。

选项:

--最大值[整数] 指定要收获的文章的最大数量(20倍数)

--PDF格式 将每个文件的副本保存为pdf格式(这会使收获速度变慢,因为必须为每个pdf生成留出几秒钟)

--文本 将每篇文章的ocrd文本保存到单独的.txt文件中

重新开始收割

事情出了差错,收成中断了。如果您的收成在该收成之前停止,您可以这样做:

    $ troveharvester restart

默认情况下,脚本将尝试重新启动最近的收获。您还可以重新开始较早的收割:

    $ troveharvester restart --harvest [harvest timestamp]

获取收获的摘要

如果您想快速检查收割状态,请尝试:

    $ troveharvester report

默认情况下,脚本将报告最近的收获。您可以获得早期收获的摘要:

    $ troveharvester report --harvest [harvest timestamp]

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java:不解析XML的简单XML。例外   KIE Workbench的java自定义UI   java将元素从bucket移动到LinkedList,但有一个元素被完全删除   如何将java stream collect转换为scala   java运行AsynkTask多次不工作   java组织。xml。萨克斯。SAXParseException:cvccomplextype。2.4.c:匹配的通配符是严格的   java是一种计算排序算法所需时间的合适方法   java在O(logn)时间内对排序整数数组中具有相同数字的数字进行计数   xpages从当前数据库javaAgent调用另一个数据库的javaAgent   java如何在instagram中上传特定位置的所有照片   JavaApachePOI可以有效地删除多个列   java创建的对象数   java我可以在关闭连接时关闭Oracle JDBC自动提交吗?