收集珍贵的数字化报纸文章的工具。

troveharvester的Python项目详细描述


转子收割机

这是从Trove中获取大量数字化报纸文章的工具。

它已经在MacOS和Windows7上进行了测试,应该可以在Python2.7和Python3上正常工作。

安装选项

不需要安装!

如果您想在不安装任何东西的情况下使用收获机,只需转到glam工作台中的Trove Newspaper Harvester存储库。

通过Docker安装

假设您已经安装并运行Docker,只需启动一个TroveHarvester容器:

    $ docker run -v $(pwd):/troveharvester/data -it wragge/troveharvester /bin/bash

注意,这将把收获的数据存储在本地文件系统的当前工作目录中。

通过PIP安装

假设您已经安装了python和Virtualenv,那么:

    $ virtualenv mytroveharvests
    $ cd mytroveharvests
    $ source bin/activate
    $ pip install troveharvester

在Windows上应该是:

    > virtualenv mytroveharvests
    > cd mytroveharvests
    > Scripts\activate
    > pip install troveharvester

基本用法

在收割之前,你需要给自己弄一张Trove API key

有三个基本命令:

  • start--开始新的收获
  • 重新启动--重新启动暂停的收获
  • 报告--查看收获详细信息

开始收割

要开始新的收获,您只需执行以下操作:

    $ cd mytroveharvests
    $ source bin/activate
    $ troveharvester start "[Trove query]"[Trove API key]

或在Windows上:

    > cd mytroveharvests
    > Scripts\activate
    > troveharvester start "[Trove query]"[Trove API key]

trove查询可以是从Trove web interface中的搜索复制并粘贴的url副本,也可以是使用Trove API Console之类的内容构造的trove api查询url。用双引号将url括起来。

将自动创建一个data目录来保存所有收获。每个收获都将保存到一个名为current timestamp的目录中。获取的文章的详细信息将写入名为results.csv的csv文件。收获配置详细信息也保存到metadata.json文件中。

选项:

--最大值[整数] 指定要收获的文章的最大数量(20倍数)

--PDF格式 将每个文件的副本保存为pdf格式(这会使收获速度变慢,因为必须为每个pdf生成留出几秒钟)

--文本 将每篇文章的ocrd文本保存到单独的.txt文件中

重新开始收割

事情出了差错,收成中断了。如果您的收成在该收成之前停止,您可以这样做:

    $ troveharvester restart

默认情况下,脚本将尝试重新启动最近的收获。您还可以重新开始较早的收割:

    $ troveharvester restart --harvest [harvest timestamp]

获取收获的摘要

如果您想快速检查收割状态,请尝试:

    $ troveharvester report

默认情况下,脚本将报告最近的收获。您可以获得早期收获的摘要:

    $ troveharvester report --harvest [harvest timestamp]

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java例外。Lang.Stringindexoutofboundsexception索引超出范围(0)   java Spring引导Freemarker从2.2.0升级失败   重构Java反模式名称?包含对象的对象包含。。。等   用java处理JDBC可能出现的死锁的最佳方法   java无法访问主线程上的数据库,因为它可能会在很长一段时间内锁定UI   java如何将固定大小的画布包装在边框窗格中的滚动窗格居中?   java解析xsd文件后得到空结果   在html页面中表示XML文件的java   socketjava对象流   sql Java越界异常数据库   JavaJBoss7.1.1不会在Mavericks上启动   Twincat ADS事件驱动读取在一段时间后停止工作(Java)   java MyBatis使用生成的ID插入所有   Mojave上缺少MacOS Java控制面板   JavaGuice:如果多次注入相同的依赖项,是否注入了该依赖项的相同实例?