我正在为在线词汇做一些词汇表和词典的网络抓取,我试图获取的一些信息是PDF格式的。我使用PyPDF2将PDF中的文本读入字符串,目的是将信息分类为两列(术语、定义)或数据帧。由于没有常用的分隔符来分割文本,我想知道是否可以在粗体文本上分割文本。在“\n”上拆分不是一个选项,因为PDFreader倾向于随机插入“\n”
以下是术语表示例:
污染物排放到空气中的物质
污染物代码-污染物的五位识别代码。名单可在 EAS网页:
控制装置-参见消减装置
到目前为止,我得到的代码是:
import PyPDF2
reader = PyPDF2.PdfFileReader(pdf)
print(reader.numPages)
num_pages = reader.numPages
count = 0
text =""
while count < num_pages:
pageObj = reader.getPage(count)
count += 1
text += pageObj.extractText()
目前没有回答
相关问题 更多 >
编程相关推荐