支持doc、docx和pdf文件的Python文本索引器
我现在正在为我的Python程序寻找一个文本索引工具。我选中了Solr,这是一个基于Lucene的项目,还有Whoosh,这是一个专门为Python开发的工具。我查了很多关于支持doc、docx和pdf文件的文档,Solr总是让我去看Tika这个包,而Tika的一个版本已经和Solr集成在一起了。
不过,结果并没有明确说明哪个包有内置支持这三种格式。Whoosh和Solr支持这些格式吗?还有其他哪些开源的索引工具可以直接读取这些格式呢?
1 个回答
2
从Solr 1.4版本开始,你可以直接上传Word和PDF文件,并且这些文件会被自动处理和索引。具体可以查看这个链接:http://wiki.apache.org/solr/ExtractingRequestHandler
Solr的ExtractingRequestHandler功能使用了Tika工具,允许用户将二进制文件上传到Solr,然后Solr会从这些文件中提取文本内容,并进行索引。