用于DOC、DOCX和PDF的Python转换库

-2 投票
2 回答
9426 浏览
提问于 2025-04-16 22:26

可能重复的问题:
用Python将PDF、DOC和DOCX转换为文本格式的解决方案

我正在制作一个文档搜索引擎,目的是对一些常见的二进制格式进行索引。我在寻找适合这个目的的Python库。

我发现可靠的转换工具很难找到。PyPDF的效果总是不太准确。请推荐:

  • 可以将这些格式转换为文本的Python库
  • 或者可以作为子进程调用的跨平台独立程序

2 个回答

1

你可以试试 Open Office。

它的转换能力还不错。如果你想编辑 PDF 文档,需要安装一个叫做 pdf import extension 的扩展。

还有一些可以和 Python 一起使用的扩展,比如 python-uno bridge,不过我在使用它的时候遇到了一些困难,通常我会选择把 Open Office 当作一个子程序来调用。

我刚注意到你在这里开了一个重复的问题:如何用 Python 将 PDF、DOC 和 DOCX 转换成文本格式...

1
  • 你可以通过把 .docx 文件解压缩来查看它的内容,然后在解压后的文件夹里找东西。具体可以参考这个链接:如何在Word 2007的.docx文件中搜索一个词?
  • 如果你用的pyPDF不管用,可以试试用 pdftotext 这个工具,它可以作为一个子进程来使用。
  • .doc 文件可能是最难处理的。你有没有考虑过使用COM脚本?也就是说,让Word打开这个文件并把它导出为文本?另外,还有一个Linux工具可以用来 从MS Word文件中提取文本

撰写回答