Python Parsr客户端将PDF、文档和图像转换为丰富的结构化数据

parsr-client的Python项目详细描述


Parsr客户端

通过Parsr工具的API提供一个python接口。 Parsr将PDF、文档和图像转换为丰富的结构化数据。在

https://github.com/axa-group/Parsr上查找有关Parsr的所有信息(包括下载)。在

1安装

pip install parsr-client

2使用

确保Parsr服务器已经在运行。假设地址是localhost:3001

2.1连接到Parsr服务器

^{pr2}$

2.2发送文件

parsr.send_document(file_path='README.pdf',config_path='defaultConfig.json'document_name='The Readme',save_request_id=True)

2.4检索结果

  1. 获取JSON格式的所有内容:

    parsr.get_json()
  2. 作为降价:

    parsr.get_markdown()
  3. 作为文本:

    parsr.get_text()
  4. 获取第一页上的第一张表:

    parsr.get_table(page=1,table=1,)
  5. 获取文档的所有版本:

    parsr.get_revisions('The Readme')
  6. 每个文档之间的连续修订:

    parsr.compare_revisions('The Readme',pretty_html=True)

3在本地解释整个JSON输出

提供的ParsrOutputInterpreter类可用于解释下载的JSON输出并生成更高级别的结构,如文本正文。在

下面是一个从上面的示例在第一页生成文本正文的示例。在

fromparsr_clientimportParsrOutputInterpreterparsr_interpreter=ParsrOutputInterpreter(parsr.get_json())t=parsr_interpreter.get_text(page_number=1)print(t)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用jain api上的编解码器信息自动创建sdp消息   显示素数误报的java程序   java如何从存储x、y值和整数索引之间的时间变化的两个数组列表创建动画?   java CompletableFuture:转换与组合   具有多个in运算符的java CrudePository findBy方法签名?   java:扩展小程序进程超时   java如何做mvn scm插件匿名pserver cvs访问   java如何在选中项目时将项目从一个活动发送到另一个活动   java存储子网的最佳数据结构,用于将Ip地址与子网匹配   java Jackson序列化以报告无法序列化的字段列表   如何将java mysql连接器导入IntelliJ?   如果java只在构造函数中编写,它是线程安全的集合吗?   java正则表达式捕获组在OR运算符后返回null   java使用Jackson在运行时将实体动态序列化为其ID或完整表示形式