将PDF转换为文本：删除单词中的断行

import re with open('pdf_test.txt','r+', encoding='utf-8') as f: text = f.read() for line in text: if line.endswith('-'): line = re.sub('-',' ',line) f.seek(0) f.write(line) f.truncate()

2条回答

网友

1楼 · 编辑于 2024-05-23 21:38:47

PDFMiner是您的一个选项，并且this is an example从PDF页面提取文本。在

出于您的目的，您必须将第176行改为

' '.join(text_content)

这将删除换行符。在

网友

2楼 · 编辑于 2024-05-23 21:38:47

我不知道它是否有效，但您可以使用replace：

text.replace('- ','')

或使用regex：

^{pr2}$

但这两种方法将取代他们找到的每一个这样的字符（'-'），而不仅仅是在句子的末尾。好在我觉得你在普通文本中找不到“-”。在

更新

好吧，看了你的评论后，我想文字是这样的：

De reden van alle beroering was niet moeilijk te raden. Adri-
aan bleef even staan bij een gezelschap jongerejaars om te ho-
ren welke uitkomst de discussie kreeg. Maar terwijl hij stond te luisteren naar 
meningen over de acute kwestie Nieuw-Gui-
nea, overviel hem de herinnering aan een zonovergoten mid-
dag begin september 1939 in dezelfde hal toen hij, student gene-
eskunde, met jaargenoten het zojuist ontketende Duitse of-
fensief in Polen besprak.

我能保持代码的格式

在这种情况下，如果只想将每行末尾的“-”替换为“”，可以执行以下操作：

import re
with open('pdf_test.txt','r+') as f:
    lines = f.readlines()
    f.seek(0)
    for line in lines:
        if line[-2]=='-':
            line = re.sub('-','',line)   
        f.write(line)

在这种情况下，.endswith('-')也不起作用，因为每行的最后一个字符是\n，所以对原始文本没有实际的更改，这就是为什么我使用line[-2]来检查'-'字符的原因。在

相关问题更多 >

编程相关推荐

热门问题

热门文章