如何在php/python中将pdf、ppt、xl、doc文件内容读取为字符串

-1 投票
3 回答
1681 浏览
提问于 2025-04-15 21:35

请给我推荐一些内置的命令或包吗?

3 个回答

0

试试这个:

$data = fopen('myfile.png', 'rb'); // read in binary mode.

if ($data) {
  header('Content-Type: image/png');
  fpassthru($data);
}

你需要相应地更改 content-type

1

你是想问文件的内容是以“二进制”形式,还是以实际的文本形式呢?

如果你想在PHP中以“二进制”方式读取文件,可以参考这个链接:http://php.net/manual/en/function.file.php

在Python中,你可以查看这个链接来了解如何读取文件:http://docs.python.org/tutorial/inputoutput.html#reading-and-writing-files

实际上,读取文件的内容要复杂得多,还需要额外的库支持。比如,你可以看看这个在Stack Overflow上的问题(关于Python):python convert microsoft office docs to plain text on linux

2

其实,从网上找到一些东西并不难。这里有一个针对Python的库,叫做 pyPDF。你也可以去 PyPi 上查找类似的模块。至于读取doc、ppt、xls文件,有一种方法是使用 COM

撰写回答