在PDF中搜索,索引吗?

2 投票
2 回答
4125 浏览
提问于 2025-04-16 13:23

我有超过1000个可以搜索的PDF文件。

我需要一些插件或者应用程序来对它们进行索引,比如这个网址 (http) joomla.natemaxfield.com。

2 个回答

1

看看这个 PDFMiner。它可以很简单地完成你想要的事情。另外,请搜索一下类似的问题,因为这个问题可能和这个很像: 用于将PDF转换为文本的Python模块

2

我们使用Swish-e来为我们的网站建立索引,这个网站上有成千上万的PDF文件、Word文档,甚至还有WordPerfect文件。它的效果非常好。这个工具是免费的,开源的,并且能很好地与PHP结合使用。

http://swish-e.org/index.html

在他们的主页上写着:

Swish-e是一个快速、灵活且免费的开源系统,用于为网页或其他文件的集合建立索引。Swish-e特别适合处理一百万个文档或更少的集合。它使用GNOME™的libxml2解析器和一系列过滤器,可以索引纯文本、电子邮件、PDF、HTML、XML、Microsoft®的Word/PowerPoint/Excel文件,以及几乎所有可以转换为XML或HTML文本的文件。Swish-e通常还用来补充像MySQL®这样的数据库,以实现非常快速的全文搜索。

撰写回答