如何从PDF python中提取文本和字体信息

2024-05-14 20:46:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从一份法律文件(PDF格式)中摘录一些重要的句子。我知道为了找到这些句子,应该看文件中的哪些部分

我的想法是:

  1. 根据节标题将整个文档拆分为不同的节,并获得文档的层次视图
  2. 反复浏览每个部分的内容,找到我想要的关键词和句子

采用这种方法的原因是,一个部分中的关键字属于一个类别,而另一部分中的相同关键字可能有不同的用法。这样我就不会因为搜索整个文档而搞砸了

如果我在寻找像ABC这样的关键词。在“定义”部分,会有一段文字说明ABC一词的定义,但在其他部分,ABC一词将在不同的上下文中使用

我面临的问题:

  1. 我使用pdfminer提取字体信息,如字体名称和字体大小,以确定文本是否为节头。但是,它并不适用于所有文档,也不能提供正确的字体信息。而且,提取后的文本的顺序与文档中的顺序不同

是否有其他python包可用于提取字体信息或任何其他方法来帮助我完成任务


Tags: 文件方法文档文本信息定义pdf顺序

热门问题