一个命令行工具,它在您的计算机上创建您喜爱的网站的全文搜索索引,并允许您在本地搜索它们
sitesearcher的Python项目详细描述
关于sitesearcher
sitesearcher是一个命令行工具,它可以在您的计算机上创建您喜爱的网站的全文搜索索引,并允许您在本地进行搜索。
使用量
sitesearcher indexer <mydomain>
-为<mydomain>
创建本地搜索索引
sitesearcher search <mydomain>
-打开<mydomain>
的搜索提示
大型站点的索引可能花费很长时间,但您可以在任何时候停止索引器,并在稍后离开的位置继续。若要停止索引器,只需输入{{*CD5}}一次,然后等待优美退出。要重新启动,请使用--continue
标志再次运行index命令,即sitesearcher indexer <mydomain> --continue
。
网络服务器友好型
sitesearcher在爬网时尝试对web服务器友好。它遵从robot.txt
,用"SiteSearcher"
用户代理标识自己,并使用Scrapy Autothrottle Extension来减少服务器上的负载。
安装SiteSearcher
如果已安装pip
,则可以使用pip
下载并安装sitesearcher。
pip install sitesearcher
sitesearcher使用Scrapybot框架,因此继承其dependencies。
获取源
从pypi的http://pypi.python.org/pypi/sitesearcher下载源版本
您可以从github查看最新版本的源代码。
git clone https://github.com/sbabrass/sitesearcher
python版本支持
sitesearcher支持python版本2.7和3.3+。
但是,在python版本之间切换可能需要重新生成索引,因为目前不支持sitesearcher/python 2读取和写入使用sitesearcher/python 3创建的索引,反之亦然。
历史记录
0.1a1
- sitesearcher工具的初始版本
- 创建Scrapycrawler以提取站点的全文内容
- 创建Whoosh索引器来索引存储的站点
- 创建索引和搜索的CLI < /LI>
0.1a2
- 小代码清理