2024-05-23 17:39:12 发布
网友
我在用维基百科的垃圾堆做搜索引擎。我已经从文章中拆分、解析和提取了干净的文本,下一步是构建索引。我选择使用pylucene来完成这项任务,但问题是,我应该为整篇文章(整个wikipedia页面)编制索引,还是逐节编制索引(每个部分包含大约2到4段)?我不想丢失任何信息,我想得到正确的段落,包含搜索引擎中每个问题的答案
目前没有回答
目前没有回答
相关问题 更多 >
编程相关推荐