Siftrics的hydraapi的官方客户端,这是一个文本识别文档到数据库服务

hydra-api的Python项目详细描述


此存储库包含官方的Hydra APIPython客户机。hydraapi是一种文本识别服务。在

快速启动

  1. 安装程序包。在
pip install hydra-api

或者

^{pr2}$

等等

  1. siftrics.com上创建新的数据源。在
  2. 从新创建的数据源的页面获取API密钥。在
  3. 创建一个客户端,将API密钥传递给构造函数。在
  4. 使用客户机处理文档,传递数据源的id和文档的文件路径。在
import hydra_api

client = hydra_api.Client('xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx')

rows = client.recognize('my_data_source_id', ['invoice.pdf', 'receipt_1.png'])

rows如下所示:

[
  {
    "Error": "",
    "FileIndex": 0,
    "RecognizedText": { ... }
  },
  ...
]

FileIndex是原始请求的“files”数组中此文件的索引。在

RecognizedText是一个将标签映射到值的字典。标签是在创建数据源期间绘制的边界框的标题。值是这些边界框中可识别的文本。在

使用Base64字符串而不是文件路径

还有另一个函数,client.recognizeBase64(dataSourceId, base64Files, doFaster=False),它接受base64字符串(文件内容),而不是文件路径。因为从文件的内容推断MIME类型不是一件容易的事,所以必须指定与每个base64文件字符串相关联的MIME类型:base64Files必须是dict对象的列表,其中包含两个字段:"mimeType"和`“base64File”`。示例:

    base64Files = [
        {
            'mimeType': 'image/png',
            'base64File': '...',
        },
        {
            'mimeType': 'application/pdf',
            'base64File': '...',
        },
    ]
    rows = client.recognizeBase64('Helm-Test-Againe', base64Files, doFaster=True)

返回转换/预处理图像

Hydra可以转换输入文档,以便它们被裁剪并与用于创建数据源的原始图像对齐。在

recognizerecognizeBase64函数有一个额外的默认参数returnTransformedImages,默认为False,但是如果它设置为True,那么Siftrics将转换并返回图像,以便它们与原始图像对齐。在

返回的图像将在响应中“Rows”的每个元素的“TransformedImages”字段中可用:

{
  "Rows": [
    {
      "Error": "",
      "FileIndex": 0,
      "RecognizedText": {
        "My Field 1": "text from your document...",
        "My Field 2": "text from your document...",
        ...
      },
      "TransformedImages": [
        {
          "Base64Image": ...,
          "PageNumber": 1
        },
        ...
      ]
    },
    ...
  ]
}

更快的结果

recognizerecognizeBase64函数有一个额外的默认参数doFaster,默认为False,但如果将其设置为True,则Siftrics会更快地处理文档,但会降低文本识别精度。实验上,当所有要处理的文档旋转不超过45度时,doFaster=true似乎不会影响精度。在

导出jpg而不是png

recognizerecognizeBase64函数有附加的默认参数returnJpgs=False和{}。{{cds}格式为jpgQuality必须是介于1和100之间的整数(包括1和100)。在

API官方文档

这是official documentation for the Hydra API。在

Apache V2许可证

这段代码是在apachev2.0下授权的。许可证的全文可以在“许可证”文件中找到。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java InputStream对象在声明后关闭   java未定义名为“transactionManager”的bean重命名transactionManager   java“jar”命令何时会拒绝将类添加到java中。jar文件?   java JPA标准依赖WHERE子句   安卓中从SD卡读取文本文件时出现java错误   java直接启用类似位置的权限   使用@WebMvcTest和Mockito-BDDMockito对SpringBoot-RestController进行java测试   java JSESSIONID存储在哪里?   java jtextarea鼠标事件覆盖容器鼠标事件   java DRL无法解析动态加载的类   java是从一个方法返回多个对象的最简单方法   java自定义按钮/编辑框是否不可见?   java GUI如何在保存用户输入的同时在面板或框架之间切换   swing Java自定义JSlider不会更新   GridBagLayout中的java超过1个JPanel   java从ProjectReactor中的flux中采样除第一个元素外的所有元素   Java泛型和泛型类型   Java代码生成宽指令的jvm