是否有PyPDF2方法来确定从PDF读取的文本是否为粗体?

2024-05-14 00:43:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在为在线词汇做一些词汇表和词典的网络抓取,我试图获取的一些信息是PDF格式的。我使用PyPDF2将PDF中的文本读入字符串,目的是将信息分类为两列(术语、定义)或数据帧。由于没有常用的分隔符来分割文本,我想知道是否可以在粗体文本上分割文本。在“\n”上拆分不是一个选项,因为PDFreader倾向于随机插入“\n”

以下是术语表示例:

污染物排放到空气中的物质

污染物代码-污染物的五位识别代码。名单可在 EAS网页:

控制装置-参见消减装置

到目前为止,我得到的代码是:

import PyPDF2

reader = PyPDF2.PdfFileReader(pdf)
print(reader.numPages)

num_pages = reader.numPages
count = 0
text =""

while count < num_pages:
    pageObj = reader.getPage(count)
    count += 1
    text += pageObj.extractText()

Tags: 代码text文本信息pdfcountpagesnum