from docx import Document
import re
import os
path = 'your path'
direct = os.listdir(path)
for i in direct:
document = Document()
document.add_heading(i, 0)
myfile = open('/path/to/read/from/'+i).read()
myfile = re.sub(r'[^\x00-\x7F]+|\x0c',' ', myfile) # remove all non-XML-compatible
characters
p = document.add_paragraph(myfile)
document.save('/path/to/write/to/'+i+'.docx')
您可以使用pythons、pdfminer将pdf转换为txt,这在内存方面比tesseract好,它会接收所有文本数据,但会丢失格式,然后您可以使用python Docx将此txt文件转换为Docx
或者,您可以将文档转换为XML并以这种方式读取,您可以通过比较字体大小来保存格式
Conversion Cloud提供Python SDK,用于文本/PDF到文档/DOCX的转换,以及许多其他常见文件格式从一种格式转换为另一种格式,而不依赖任何第三方工具或软件
相关问题 更多 >
编程相关推荐