Siftrics的hydraapi的官方客户端,这是一个文本识别文档到数据库服务
hydra-api的Python项目详细描述
此存储库包含官方的Hydra APIPython客户机。hydraapi是一种文本识别服务。在
快速启动
- 安装程序包。在
pip install hydra-api
或者
^{pr2}$等等
- 在siftrics.com上创建新的数据源。在
- 从新创建的数据源的页面获取API密钥。在
- 创建一个客户端,将API密钥传递给构造函数。在
- 使用客户机处理文档,传递数据源的id和文档的文件路径。在
import hydra_api
client = hydra_api.Client('xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx')
rows = client.recognize('my_data_source_id', ['invoice.pdf', 'receipt_1.png'])
rows
如下所示:
[
{
"Error": "",
"FileIndex": 0,
"RecognizedText": { ... }
},
...
]
FileIndex
是原始请求的“files”数组中此文件的索引。在
RecognizedText
是一个将标签映射到值的字典。标签是在创建数据源期间绘制的边界框的标题。值是这些边界框中可识别的文本。在
使用Base64字符串而不是文件路径
还有另一个函数,client.recognizeBase64(dataSourceId, base64Files, doFaster=False)
,它接受base64字符串(文件内容),而不是文件路径。因为从文件的内容推断MIME类型不是一件容易的事,所以必须指定与每个base64文件字符串相关联的MIME类型:base64Files
必须是dict
对象的列表,其中包含两个字段:"mimeType"
和`“base64File”`。示例:
base64Files = [
{
'mimeType': 'image/png',
'base64File': '...',
},
{
'mimeType': 'application/pdf',
'base64File': '...',
},
]
rows = client.recognizeBase64('Helm-Test-Againe', base64Files, doFaster=True)
返回转换/预处理图像
Hydra可以转换输入文档,以便它们被裁剪并与用于创建数据源的原始图像对齐。在
recognize
和recognizeBase64
函数有一个额外的默认参数returnTransformedImages
,默认为False
,但是如果它设置为True
,那么Siftrics将转换并返回图像,以便它们与原始图像对齐。在
返回的图像将在响应中“Rows”的每个元素的“TransformedImages”字段中可用:
{
"Rows": [
{
"Error": "",
"FileIndex": 0,
"RecognizedText": {
"My Field 1": "text from your document...",
"My Field 2": "text from your document...",
...
},
"TransformedImages": [
{
"Base64Image": ...,
"PageNumber": 1
},
...
]
},
...
]
}
更快的结果
recognize
和recognizeBase64
函数有一个额外的默认参数doFaster
,默认为False
,但如果将其设置为True
,则Siftrics会更快地处理文档,但会降低文本识别精度。实验上,当所有要处理的文档旋转不超过45度时,doFaster=true似乎不会影响精度。在
导出jpg而不是png
recognize
和recognizeBase64
函数有附加的默认参数returnJpgs=False
和{
API官方文档
这是official documentation for the Hydra API。在
Apache V2许可证
这段代码是在apachev2.0下授权的。许可证的全文可以在“许可证”文件中找到。在
- 项目
标签: