使用Python进行全文搜索

1 投票

1 回答

3770 浏览

提问于 2025-04-18 08:26

我有一个很大的HTML文件，里面有文字、表格和图片（还有替代文本）。我现在为这个文件做了一个全文搜索功能，但目前的做法是用字符串比较，这种方式比较严格。我想改进这个功能，让它能根据查询结果返回前5个段落（<p></p>）、表格或图片，并进行排序。

我现在遇到了一些问题：

Example 1 (misspelling):

Query: "sta**kc**overflow"
Text: "....this is stackoverflow...." 

Example 2 (strict comparison):

Query: "full text searching"
Text:  "...full searching..."

我在Python中查找了一些现成的库，发现了elasticsearch和Whoosh，但是在文档中很难找到关于HTML全文搜索的例子。你有没有什么例子或者其他库可以推荐的？

排序算法 html解析信息检索全文搜索 elasticsearch Whoosh 数据库索引文本检索

1 个回答

-1

试试BeautifulSoup吧——它非常容易安装，使用起来也简单，受到Python社区的广泛认可。而且它的文档也写得很好：

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

里面甚至还有一个

   soup.get_text()

函数，当然还有很多其他的功能。

回答于 2025-04-18 由 Python大师

分享举报

使用Python进行全文搜索

1 个回答

撰写回答