如何在使用Popplerutils从PDF转换为文本时保留格式和删除隐藏数据

2024-03-28 10:53:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个PDF格式如下

**Cutomer PO number Invoice  Date1  Date2     Currency**

11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00

因此,我使用将pdf转换为文本

pdftotext -layout -f sample.pdf sample.txt

问题是,该行溢出到下一行,如下所示

11235 po-689573/gqmr312
                       IN-345 30/12/2018 11/01/2019 200,234.00

我希望波普勒不要把所有隐藏的文本gqmr312IN-345都拿走

并在一行中返回所有内容

与pdf格式类似,如下所示

11235 po-689573/gqmIN 30/12/2018 11/01/2019 200,234.00

有没有一种方法可以在python中实现这一点


Tags: samplein文本numberpdf格式invoicepo