在PDF中搜索,索引吗?
我有超过1000个可以搜索的PDF文件。
我需要一些插件或者应用程序来对它们进行索引,比如这个网址 (http) joomla.natemaxfield.com。
2 个回答
1
看看这个 PDFMiner。它可以很简单地完成你想要的事情。另外,请搜索一下类似的问题,因为这个问题可能和这个很像: 用于将PDF转换为文本的Python模块
2
我们使用Swish-e来为我们的网站建立索引,这个网站上有成千上万的PDF文件、Word文档,甚至还有WordPerfect文件。它的效果非常好。这个工具是免费的,开源的,并且能很好地与PHP结合使用。
在他们的主页上写着:
Swish-e是一个快速、灵活且免费的开源系统,用于为网页或其他文件的集合建立索引。Swish-e特别适合处理一百万个文档或更少的集合。它使用GNOME™的libxml2解析器和一系列过滤器,可以索引纯文本、电子邮件、PDF、HTML、XML、Microsoft®的Word/PowerPoint/Excel文件,以及几乎所有可以转换为XML或HTML文本的文件。Swish-e通常还用来补充像MySQL®这样的数据库,以实现非常快速的全文搜索。