Python Parsr客户端将PDF、文档和图像转换为丰富的结构化数据
parsr-client的Python项目详细描述
Parsr客户端
通过Parsr工具的API提供一个python接口。 Parsr将PDF、文档和图像转换为丰富的结构化数据。在
在https://github.com/axa-group/Parsr上查找有关Parsr的所有信息(包括下载)。在
1安装
pip install parsr-client
2使用
确保Parsr服务器已经在运行。假设地址是localhost:3001
2.1连接到Parsr服务器
^{pr2}$2.2发送文件
parsr.send_document(file_path='README.pdf',config_path='defaultConfig.json'document_name='The Readme',save_request_id=True)
2.4检索结果
- 在
获取JSON格式的所有内容:
parsr.get_json()
在 - 在
作为降价:
parsr.get_markdown()
在 - 在
作为文本:
parsr.get_text()
在 - 在
获取第一页上的第一张表:
parsr.get_table(page=1,table=1,)
在 - 在
获取文档的所有版本:
parsr.get_revisions('The Readme')
在 - 在
每个文档之间的连续修订:
parsr.compare_revisions('The Readme',pretty_html=True)
在
3在本地解释整个JSON输出
提供的ParsrOutputInterpreter
类可用于解释下载的JSON输出并生成更高级别的结构,如文本正文。在
下面是一个从上面的示例在第一页生成文本正文的示例。在
fromparsr_clientimportParsrOutputInterpreterparsr_interpreter=ParsrOutputInterpreter(parsr.get_json())t=parsr_interpreter.get_text(page_number=1)print(t)
- 项目
标签: