是否有PyPDF2方法来确定从PDF读取的文本是否为粗体？

2024-05-14 00:43:31 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在为在线词汇做一些词汇表和词典的网络抓取，我试图获取的一些信息是PDF格式的。我使用PyPDF2将PDF中的文本读入字符串，目的是将信息分类为两列（术语、定义）或数据帧。由于没有常用的分隔符来分割文本，我想知道是否可以在粗体文本上分割文本。在“\n”上拆分不是一个选项，因为PDFreader倾向于随机插入“\n”

以下是术语表示例：

污染物排放到空气中的物质

污染物代码-污染物的五位识别代码。名单可在 EAS网页：

控制装置-参见消减装置

到目前为止，我得到的代码是：

import PyPDF2

reader = PyPDF2.PdfFileReader(pdf)
print(reader.numPages)

num_pages = reader.numPages
count = 0
text =""

while count < num_pages:
    pageObj = reader.getPage(count)
    count += 1
    text += pageObj.extractText()

Tags：代码 text 文本信息 pdf count pages num

0条回答

目前没有回答

是否有PyPDF2方法来确定从PDF读取的文本是否为粗体？

相关问题更多 >

编程相关推荐

热门问题

热门文章

是否有PyPDF2方法来确定从PDF读取的文本是否为粗体？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >