使用Python进行全文搜索

1 投票
1 回答
3770 浏览
提问于 2025-04-18 08:26

我有一个很大的HTML文件,里面有文字、表格和图片(还有替代文本)。我现在为这个文件做了一个全文搜索功能,但目前的做法是用字符串比较,这种方式比较严格。我想改进这个功能,让它能根据查询结果返回前5个段落(<p></p>)、表格或图片,并进行排序。

我现在遇到了一些问题:

Example 1 (misspelling):

Query: "sta**kc**overflow"
Text: "....this is stackoverflow...." 

Example 2 (strict comparison):

Query: "full text searching"
Text:  "...full searching..."

我在Python中查找了一些现成的库,发现了elasticsearchWhoosh,但是在文档中很难找到关于HTML全文搜索的例子。你有没有什么例子或者其他库可以推荐的?

1 个回答

-1

试试BeautifulSoup吧——它非常容易安装,使用起来也简单,受到Python社区的广泛认可。而且它的文档也写得很好:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

里面甚至还有一个

   soup.get_text()

函数,当然还有很多其他的功能。

撰写回答