索引wikipedia转储而不丢失信息

2024-05-23 17:39:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我在用维基百科的垃圾堆做搜索引擎。我已经从文章中拆分、解析和提取了干净的文本,下一步是构建索引。我选择使用pylucene来完成这项任务,但问题是,我应该为整篇文章(整个wikipedia页面)编制索引,还是逐节编制索引(每个部分包含大约2到4段)?我不想丢失任何信息,我想得到正确的段落,包含搜索引擎中每个问题的答案


Tags: 答案文本信息文章页面wikipedia搜索引擎段落