使用Python进行全文搜索
我有一个很大的HTML文件,里面有文字、表格和图片(还有替代文本)。我现在为这个文件做了一个全文搜索功能,但目前的做法是用字符串比较,这种方式比较严格。我想改进这个功能,让它能根据查询结果返回前5个段落(<p></p>
)、表格或图片,并进行排序。
我现在遇到了一些问题:
Example 1 (misspelling):
Query: "sta**kc**overflow"
Text: "....this is stackoverflow...."
Example 2 (strict comparison):
Query: "full text searching"
Text: "...full searching..."
我在Python中查找了一些现成的库,发现了elasticsearch和Whoosh,但是在文档中很难找到关于HTML全文搜索的例子。你有没有什么例子或者其他库可以推荐的?
1 个回答
-1
试试BeautifulSoup吧——它非常容易安装,使用起来也简单,受到Python社区的广泛认可。而且它的文档也写得很好:
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
里面甚至还有一个
soup.get_text()
函数,当然还有很多其他的功能。