Whoosh:索引MS文档和PDF文件

3 投票
1 回答
2720 浏览
提问于 2025-04-16 22:23

我想用Python做一个文档搜索的功能。因为我不能用Java,所以Solr就不适合我。

所以Whoosh看起来是个不错的选择。但我发现它好像不能直接索引doc或pdf文件(而Solr可以做到)。那有没有什么办法可以让Whoosh直接索引这些文件呢?

1 个回答

4

Whoosh 只需要从这些文档中提取出来的文本。虽然 Whoosh 库本身不提供这个提取功能,但有一些 Python 库可以帮你提取文本,比如 pdf miner、catdoc 或 antiword。

想了解更多信息,可以看看这两个讨论:

撰写回答