我正在做一个简单的应用程序,这将帮助我转换我的所有pdf文件,其中有英文文本为法文文本的pdf格式。我做了一个简单的概念证明,它可以帮助我迭代给定的文件并将所有文本转换成法语。现在,我坚持将转换后的法语文本保存为pdf格式,其结构与原始英文版本相似。在
import PyPDF2
from googletrans import Translator
translator = Translator()
read_pdf = PyPDF2.PdfFileReader(open('any_english.pdf', 'rb'))
write_pdf = PyPDF2.PdfFileWriter()
number_of_pages = read_pdf.getNumPages()
for i in range(number_of_pages):
page = read_pdf.getPage(i)
page_content = page.extractText()
print translator.translate(page_content, dest='fr').text
// Save the converted version text in french into a pdf conserving structure as original pdf
**注
pdf中的所有内容都是文本格式而不是图像。在
在Python中没有打开、编辑和重写pdf的简单方法。但是,根据PDF/结构的复杂性,您可能会成功地将PDF转换为HTML,翻译并从HTML生成PDF。在
为了将PDF转换为HTML,有一个pdf2html,它有一个基本的Python wrapper。在
翻译完成后,您可以使用weasyprint、html2pdf(仅限Mac)、wkhtmltopdf(需要Qt)等不同程度的反向转换。在
基本上你不能直接创建一个特定格式的PDF文件。 但您可以尝试用xhtml格式编写数据,然后使用xhtml2pdf将其转换为.pdf。 希望这对你的要求有帮助。在
相关问题 更多 >
编程相关推荐