文本检索和分析引擎。

caterpillar的Python项目详细描述


毛毛虫是什么?
===


图片::https://img.shields.io/travis/kapiche/caterpillar.svg?style=flat square
:目标:https://travis ci.org/kapiche/caterpillar
…图片::https://img.shields.io/covertalls/kapiche/caterpillar.svg?风格=平坦方块
:目标:http://覆盖层。IO/R/Kapiche / CalePraseBR/> BR/>卡特彼勒是一个纯Python文本索引和分析库。它旨在支持高级文本和其他半结构化分析应用程序,这些应用程序连接自然语言处理(NLP)。信息检索和主题建模。


一些功能包括:

*用于存储的可插入密钥/值对象存储(当前仅实现为sqlite)
*用于读/写的事务层(以及相关的锁定语义)
*支持使用一些内置的评分算法实现搜索索引(包括tf/idf)
*存储除传统信息检索数据结构之外用于分析的其他数据结构
*具有快速访问数据结构和执行自定义分析的插件结构
*具有100%的测试覆盖率



卡特彼勒如下:


import os
import tempfile


from caterpillar.processing.index import indexwriter,indexconfig
from caterpillar.processing.schema import text,schema,numeric
from caterpillar.storage.sqlite import sqlitestorage

以open('caterpillar/test_resources/moby.txt','r')作为f:
以index writer(index_dir,indexconfig(sqlitestorage,schema(text=text,some_number=numeric))作为writer:
writer.add_document(text=data,some_number=1)

installation
=代码:



documentation
特别是我们打算:
BR/> *修改模式和字段设计,以便:
更好地合并核心文本索引和提取结构化信息。例如,通过文本上下文和由命名实体提取方法标识的实体集成和索引文档
-在索引写入对象的事务生命周期内集成模式的序列化:BR/> *改进锁定以在索引大集合时更好地支持并发性
*支持更多语言,特别是允许具有适当标记和不同语言表示的多语言索引
*删除NLTK依赖项(伟大的库,但仅用于标记化)
*更好的API,用于完全自定义从文档中提取数据的内容和方式



python版本
===
caterpillar现在只针对python 3。它旨在支持python的两个最新版本以获得新特性。目前这意味着我们只支持python 3.5和3.6版本。


bdfls
==
===
*`kris rogers<;https://github.com/krisrogers/>;``````````````````````赖赖赖赖赖赖赖赖赖赖赖赖赖赖赖赖,https://github.com/rstuart85/>;`````````````=
>*`sam hames<;https://github.com/samhammes/>;````````````````````````````==
任何愿意的人!换句话说,现在还没有,但我们更愿意接受贡献。

contribution
=====
除非代码有100%的测试覆盖率并通过flake8 linting,否则不会合并代码。我们用120个字符的行编码(见tox.ini[pep8]部分),并使用“py.test<;http://pytest.org/>;”进行测试。测试位于每个包的*test*子文件夹中。T型ox被配置为自动运行测试套件、报告单元测试通过、覆盖率和linting。代码:

运行整个测试套件:
tox

许可证
==========
卡特彼勒版权所有©2013-2015 Kapiche有限公司。它是根据GNU Affero通用公共许可证授权的。

此程序是自由软件:您可以根据自由软件基金会发布的GNU Affero通用公共许可证的条款(许可证的第3版)重新分发和/或修改它,或(由您选择)任何更高版本。


版权所有者根据GNU Affero通用公共许可第3版第7节授予您额外的许可,免除您遵守GNU通用公共许可第3版第6节的要求,为程序或任何基于程序的工作提供相应的安装信息。你仍然需要遵守所有其他6条款的要求,以提供相应的来源。
BR/>此程序被分发,希望它是有用的,但没有任何保证;甚至没有默示的适销性或适合特定用途的保证。有关详细信息,请参阅GNU Affero通用公共许可证。



欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
安卓 java。lang.IndexOutOfBoundsException:索引5无效,大小为1   收集方法是Java中的原子操作吗?   grails找不到匹配的构造函数:somiti。JointMember(java.lang.String)   java检查一个字符串是否等于另一个字符串的子字符串   Java中变量参数方法的性能   为什么这个Java正则表达式不起作用?   java如何解码百分位编码字节[]   java在构造函数中获取JComponent的高度和宽度   php在java中将文件(和更多值)发布到http请求中   java删除文件的扩展名   java需要数组列表的指导   java Android internet access引发IOException异常   java如何重定向jenkins。安全SecurityListener将日志记录到linux主机上的日志文件   java只需要从influxDB获取的数据中分离或提取值