启用学习模型
dossier.models的Python项目详细描述
` models是一个python包,提供了实验性的主动学习模型。它们是用来作为搜索引擎的,通过'docsier.web'web
服务。
它还不兼容python 3
。
###运行一个简单的示例
`dossier.models`附带了一个示例web应用程序,演示如何使用所有的文档堆栈组件进行主动学习。下面是一个逐步指导,通过一个简单的示例
sortingdesk帮助您启动和运行。本指南假定您基本熟悉标准python工具,如pip和virtualenv。
您可以使用[kvlayer]支持的
(https://github.com/differo/kvlayer)
(如postgresql、hbase或mysql)。对于本指南,我们将使用redis,因为它不需要太多设置。只要确保它已安装并运行在您的
系统上。
这里有两张SortingDesk正在运行的屏幕截图:
[![静止分拣台](http://i.imgur.com/i0qt4m9s.png)(http://i.imgur.com/i0qt4m9.png)
[![SortingDesk拖放](http://i.imgur.com/uxeksx5s.png)(http://i.imgur.com/uxeksx5.png)
您应该创建一个新的python虚拟环境,并从pypi安装
`docsier.models`文件:
``bash
$virtualenv文件
$source./文件/bin/activate
$pip安装文件.models
````
这可能需要一点时间,因为
"档案.模型"依赖于"numpy","scipy"和"scikit learn"。
现在验证"档案.模型"是否安装正确:
`"bash
$python-c"导入档案.模型"
```
然后,命令应在没有任何
输出的情况下成功完成。
接下来,我们需要设置配置,以便档案堆栈知道要使用哪个数据库
,以及要在功能集合上创建哪些索引。您可以从github获取一个示例配置:
``bash
$curl-o https://raw.githubusercontent.com/dossier/dossier.models/master/data/config.yaml
````
存储类型:redis
存储地址:[localhost:6379]
此配置假定
您使用的是在端口"6379"上的"localhost"上运行的redis(默认)。
第二节告诉档案堆栈要在功能集合上创建哪些索引。此配置取决于数据中的功能。
在此示例配置中,我们选择了"name"和"keywords",因为
都是示例数据集中的功能。
若要下载和加载示例数据集,请从github中获取它,然后使用加载:
``bash
$curl-o https://raw.githubusercontent.com/dossier/dossier.models/master/data/example.fc
$dossier.store-c config.yaml load--id feature content\u id example.fc
```
`the`dossier.store`命令允许您与存储的功能集合进行交互在你的数据库里。"--id feature"标志告诉"dossier.store"使用"content\u id"功能的值作为功能集合的主键。
如果省略此标志,则生成"uuid"。
使用"ids"命令进入数据库:
`` bash
$docsier.store-c config.yaml ids
doc11
doc12
doc21
doc22
doc23
…
````
您可以运行与"dossier.models"捆绑在一起的web应用程序:
``bash
$dossier.models-c config.yaml
```
如果单击队列中某个项的"x"链接,则会在该项与页面顶部指示的
查询之间添加一个负标签。或者您可以将一个项目从队列
拖到一个bin中,或者将其放在body页面上的任何位置以创建一个新的bin。还可以将容器
拖到其他容器上合并它们。去试试吧。您可以
确认使用"dossier.label"命令创建了标签:
``bash
$dossier.label-c config.yaml list
label(doc22,doc42,annotator=unknown,2014-11-26 16:02:01,value=corefvalue.negative)
```
如果您在终端中运行dossier.models`命令,则还应该能够在输出中看到添加的标签。
在
[http://localhost:8080/sortingqueue](http://localhost:8080/sortingqueue)。
服务。
它还不兼容python 3
。
###运行一个简单的示例
`dossier.models`附带了一个示例web应用程序,演示如何使用所有的文档堆栈组件进行主动学习。下面是一个逐步指导,通过一个简单的示例
sortingdesk帮助您启动和运行。本指南假定您基本熟悉标准python工具,如pip和virtualenv。
您可以使用[kvlayer]支持的
(https://github.com/differo/kvlayer)
(如postgresql、hbase或mysql)。对于本指南,我们将使用redis,因为它不需要太多设置。只要确保它已安装并运行在您的
系统上。
这里有两张SortingDesk正在运行的屏幕截图:
[![静止分拣台](http://i.imgur.com/i0qt4m9s.png)(http://i.imgur.com/i0qt4m9.png)
[![SortingDesk拖放](http://i.imgur.com/uxeksx5s.png)(http://i.imgur.com/uxeksx5.png)
您应该创建一个新的python虚拟环境,并从pypi安装
`docsier.models`文件:
``bash
$virtualenv文件
$source./文件/bin/activate
$pip安装文件.models
````
这可能需要一点时间,因为
"档案.模型"依赖于"numpy","scipy"和"scikit learn"。
现在验证"档案.模型"是否安装正确:
`"bash
$python-c"导入档案.模型"
```
然后,命令应在没有任何
输出的情况下成功完成。
接下来,我们需要设置配置,以便档案堆栈知道要使用哪个数据库
,以及要在功能集合上创建哪些索引。您可以从github获取一个示例配置:
``bash
$curl-o https://raw.githubusercontent.com/dossier/dossier.models/master/data/config.yaml
````
存储类型:redis
存储地址:[localhost:6379]
此配置假定
您使用的是在端口"6379"上的"localhost"上运行的redis(默认)。
第二节告诉档案堆栈要在功能集合上创建哪些索引。此配置取决于数据中的功能。
在此示例配置中,我们选择了"name"和"keywords",因为
都是示例数据集中的功能。
若要下载和加载示例数据集,请从github中获取它,然后使用加载:
``bash
$curl-o https://raw.githubusercontent.com/dossier/dossier.models/master/data/example.fc
$dossier.store-c config.yaml load--id feature content\u id example.fc
```
`the`dossier.store`命令允许您与存储的功能集合进行交互在你的数据库里。"--id feature"标志告诉"dossier.store"使用"content\u id"功能的值作为功能集合的主键。
如果省略此标志,则生成"uuid"。
使用"ids"命令进入数据库:
`` bash
$docsier.store-c config.yaml ids
doc11
doc12
doc21
doc22
doc23
…
````
您可以运行与"dossier.models"捆绑在一起的web应用程序:
``bash
$dossier.models-c config.yaml
```
如果单击队列中某个项的"x"链接,则会在该项与页面顶部指示的
查询之间添加一个负标签。或者您可以将一个项目从队列
拖到一个bin中,或者将其放在body页面上的任何位置以创建一个新的bin。还可以将容器
拖到其他容器上合并它们。去试试吧。您可以
确认使用"dossier.label"命令创建了标签:
``bash
$dossier.label-c config.yaml list
label(doc22,doc42,annotator=unknown,2014-11-26 16:02:01,value=corefvalue.negative)
```
如果您在终端中运行dossier.models`命令,则还应该能够在输出中看到添加的标签。
在
[http://localhost:8080/sortingqueue](http://localhost:8080/sortingqueue)。