索引/存储代码(脚本、查询)以进行搜索/检索的最佳、有效的方法是什么?

2024-04-25 03:39:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我们有很多代码,在一个Linux盒子上的一堆文件夹中查询。每当我需要找到一个脚本时,我就做一个fgrep -ircl --include=*.{sql, py, sh} "Keyword" *。你知道吗

我正在计划创建一个简单的搜索界面(web),它允许您搜索关键字、文件类型并显示文件的位置和结果文件的摘录。我想Lucene是个不错的候选人,但我不想为了这个目的而复制我所有的文件。你知道吗

我计划每天在下班时间使用Python脚本为文件编制索引。我想更像Google桌面,但对于web(跨平台可用性)。你知道吗

你们认为完成这项任务的最好方法是什么?你知道吗


Tags: 文件代码py脚本文件夹websqlinclude
2条回答

我写了一个perl脚本waaaay回来的时候,提供了一个web界面的结果,仍然对我的作品不赞成blackbeltvb.com网站,如果你想看。不过,它进行了现场搜索,没有索引,也没有摘录。你知道吗

我还写了搜索wugnet.com它对搜索结果和摘录进行了排名,并设计了QB桌面上的搜索架构。在您的例子中,我将采用这种方法—只需要一个cron作业,它将新的或更新的脚本/文件添加到数据库中,一个大的文本字段,其他字段包含元数据,如文件名和类型。然后在数据库中设置一个web界面,搜索方式如下:

select * from data where keyword like '%word%' and keyword (or keyword) etc...

上有一个常见问题解答blackbeltvb.com这说明了如何为排名关键字结果构造SQL搜索,例如“找到的所有关键字”、“找到的一些关键字”等。。。你知道吗

使用Python,^ {A1}是唯一需要考虑的解决方案。它比Lucene更“裸露”,但它对原生C++实现的Python绑定有着很强的第一类< /强>支持,并且比Lucene与真实世界数据集的方式更小,速度更快,我指的是大数据集。你知道吗

相关问题 更多 >