如何从PDF python中提取文本和字体信息 - 问答 - Python中文网

如何从PDF python中提取文本和字体信息

2024-05-14 20:46:29 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我试图从一份法律文件（PDF格式）中摘录一些重要的句子。我知道为了找到这些句子，应该看文件中的哪些部分

我的想法是：

根据节标题将整个文档拆分为不同的节，并获得文档的层次视图
反复浏览每个部分的内容，找到我想要的关键词和句子

采用这种方法的原因是，一个部分中的关键字属于一个类别，而另一部分中的相同关键字可能有不同的用法。这样我就不会因为搜索整个文档而搞砸了

如果我在寻找像ABC这样的关键词。在“定义”部分，会有一段文字说明ABC一词的定义，但在其他部分，ABC一词将在不同的上下文中使用

我面临的问题：

我使用pdfminer提取字体信息，如字体名称和字体大小，以确定文本是否为节头。但是，它并不适用于所有文档，也不能提供正确的字体信息。而且，提取后的文本的顺序与文档中的顺序不同

是否有其他python包可用于提取字体信息或任何其他方法来帮助我完成任务

Tags：文件方法文档文本信息定义 pdf 顺序

0条回答

目前没有回答

相关问题更多 >

编程相关推荐

热门问题

热门文章