一个命令行工具,它在您的计算机上创建您喜爱的网站的全文搜索索引,并允许您在本地搜索它们

sitesearcher的Python项目详细描述


关于sitesearcher

sitesearcher是一个命令行工具,它可以在您的计算机上创建您喜爱的网站的全文搜索索引,并允许您在本地进行搜索。

使用量

sitesearcher indexer <mydomain>-为<mydomain>创建本地搜索索引

sitesearcher search <mydomain>-打开<mydomain>的搜索提示

大型站点的索引可能花费很长时间,但您可以在任何时候停止索引器,并在稍后离开的位置继续。若要停止索引器,只需输入{{*CD5}}一次,然后等待优美退出。要重新启动,请使用--continue标志再次运行index命令,即sitesearcher indexer <mydomain> --continue

网络服务器友好型

sitesearcher在爬网时尝试对web服务器友好。它遵从robot.txt,用"SiteSearcher"用户代理标识自己,并使用Scrapy Autothrottle Extension来减少服务器上的负载。

安装SiteSearcher

如果已安装pip,则可以使用pip下载并安装sitesearcher

pip install sitesearcher

sitesearcher使用Scrapybot框架,因此继承其dependencies

获取源

从pypi的http://pypi.python.org/pypi/sitesearcher下载源版本

您可以从github查看最新版本的源代码。

git clone https://github.com/sbabrass/sitesearcher

python版本支持

sitesearcher支持python版本2.7和3.3+。

但是,在python版本之间切换可能需要重新生成索引,因为目前不支持sitesearcher/python 2读取和写入使用sitesearcher/python 3创建的索引,反之亦然。

历史记录

0.1a1

  • sitesearcher工具的初始版本
  • 创建Scrapycrawler以提取站点的全文内容
  • 创建Whoosh索引器来索引存储的站点
  • 创建索引和搜索的CLI < /LI>

0.1a2

  • 小代码清理

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java当我点击MainActivity中的按钮以显示其他活动时,它不起作用   java游戏!框架:在请求之间获取控制器的组件/字段/对象   JavaBlackBerry:调用计算器并检索值?   java Struts2 jQuery插件提交按钮   java无法将更新的画布绘制到活动   java如何将Gson值放入HashMap   使用截取时出现java错误:RecyclerView:未连接适配器;跳过布局   java组织。冬眠HibernateException:在Hibernate搜索中编制索引时出错(在事务完成之前)   java Swagger服务器存根生成工作流   java JInternalFrame底部阴影问题   java nio缓冲区类中limit()的用法是什么   java水平回收器视图内部选项卡布局   java Maven无法找到依赖项   java如何管理不同应用程序实例的权限文件?