使用python从多个powerpoint文件中提取文本

网友

1楼 · 编辑于 2024-05-23 20:34:25

python-pptx可用于执行您的建议。在较高的层次上，您可以这样做（不工作的代码，只是总体方法的想法）：

from pptx import Presentation

for pptx_filename in directory:
    prs = Presentation(pptx_filename)
    for slide in prs.slides:
        for shape in slide.shapes:
            print shape.text

您需要添加一些关于搜索形状文本中的关键字符串并将它们添加到CSV文件或其他内容的信息，但是这种通用方法应该可以很好地工作。我把它留给你去解决更好的问题：）

网友

2楼 · 编辑于 2024-05-23 20:34:25

实际工作

如果要提取文本：

从pptx导入演示文稿（pip install python pptx）
对于目录中的每个文件（使用glob模块）
看每一张幻灯片，看每一张幻灯片的每一个形状
如果存在具有文本属性的形状，请打印该形状。文本

from pptx import Presentation
import glob

for eachfile in glob.glob("*.pptx"):
    prs = Presentation(eachfile)
    print(eachfile)
    print("----------------------")
    for slide in prs.slides:
        for shape in slide.shapes:
            if hasattr(shape, "text"):
                print(shape.text)

网友

3楼 · 编辑于 2024-05-23 20:34:25

提卡Python

Apache Tika库的Python端口，根据文档Apache Tika支持从1500多种文件格式中提取文本。

注意：它还可以与pyinstaller一起工作

使用pip安装：

pip install tika

示例：

#!/usr/bin/env python
from tika import parser
parsed = parser.from_file('/path/to/file')
print(parsed["metadata"]) #To get the meta data of the file
print(parsed["content"]) # To get the content of the file

链接到官方GitHub

实际工作

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python从多个powerpoint文件中提取文本

实际工作

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >