文本检索和分析引擎。

caterpillar的Python项目详细描述


毛毛虫是什么?
===


图片::https://img.shields.io/travis/kapiche/caterpillar.svg?style=flat square
:目标:https://travis ci.org/kapiche/caterpillar
…图片::https://img.shields.io/covertalls/kapiche/caterpillar.svg?风格=平坦方块
:目标:http://覆盖层。IO/R/Kapiche / CalePraseBR/> BR/>卡特彼勒是一个纯Python文本索引和分析库。它旨在支持高级文本和其他半结构化分析应用程序,这些应用程序连接自然语言处理(NLP)。信息检索和主题建模。


一些功能包括:

*用于存储的可插入密钥/值对象存储(当前仅实现为sqlite)
*用于读/写的事务层(以及相关的锁定语义)
*支持使用一些内置的评分算法实现搜索索引(包括tf/idf)
*存储除传统信息检索数据结构之外用于分析的其他数据结构
*具有快速访问数据结构和执行自定义分析的插件结构
*具有100%的测试覆盖率



卡特彼勒如下:


import os
import tempfile


from caterpillar.processing.index import indexwriter,indexconfig
from caterpillar.processing.schema import text,schema,numeric
from caterpillar.storage.sqlite import sqlitestorage

以open('caterpillar/test_resources/moby.txt','r')作为f:
以index writer(index_dir,indexconfig(sqlitestorage,schema(text=text,some_number=numeric))作为writer:
writer.add_document(text=data,some_number=1)

installation
=代码:



documentation
特别是我们打算:
BR/> *修改模式和字段设计,以便:
更好地合并核心文本索引和提取结构化信息。例如,通过文本上下文和由命名实体提取方法标识的实体集成和索引文档
-在索引写入对象的事务生命周期内集成模式的序列化:BR/> *改进锁定以在索引大集合时更好地支持并发性
*支持更多语言,特别是允许具有适当标记和不同语言表示的多语言索引
*删除NLTK依赖项(伟大的库,但仅用于标记化)
*更好的API,用于完全自定义从文档中提取数据的内容和方式



python版本
===
caterpillar现在只针对python 3。它旨在支持python的两个最新版本以获得新特性。目前这意味着我们只支持python 3.5和3.6版本。


bdfls
==
===
*`kris rogers<;https://github.com/krisrogers/>;``````````````````````赖赖赖赖赖赖赖赖赖赖赖赖赖赖赖赖,https://github.com/rstuart85/>;`````````````=
>*`sam hames<;https://github.com/samhammes/>;````````````````````````````==
任何愿意的人!换句话说,现在还没有,但我们更愿意接受贡献。

contribution
=====
除非代码有100%的测试覆盖率并通过flake8 linting,否则不会合并代码。我们用120个字符的行编码(见tox.ini[pep8]部分),并使用“py.test<;http://pytest.org/>;”进行测试。测试位于每个包的*test*子文件夹中。T型ox被配置为自动运行测试套件、报告单元测试通过、覆盖率和linting。代码:

运行整个测试套件:
tox

许可证
==========
卡特彼勒版权所有©2013-2015 Kapiche有限公司。它是根据GNU Affero通用公共许可证授权的。

此程序是自由软件:您可以根据自由软件基金会发布的GNU Affero通用公共许可证的条款(许可证的第3版)重新分发和/或修改它,或(由您选择)任何更高版本。


版权所有者根据GNU Affero通用公共许可第3版第7节授予您额外的许可,免除您遵守GNU通用公共许可第3版第6节的要求,为程序或任何基于程序的工作提供相应的安装信息。你仍然需要遵守所有其他6条款的要求,以提供相应的来源。
BR/>此程序被分发,希望它是有用的,但没有任何保证;甚至没有默示的适销性或适合特定用途的保证。有关详细信息,请参阅GNU Affero通用公共许可证。



欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
静态函数中局部变量的java垃圾收集   java向ImageView添加投掷手势   java spring引导未根据配置文件读取正确的属性   主屏幕小部件中的java自定义布局   java JSP:具有相对路径的FileReader引发FileNotFoundException   java Hibernate在集合上循环时删除会话   java无法建立到jdbc:oracle:thin:@localhost:1521:XE的连接   java我可以使用Hibernate对特定的整数大小进行验证吗?   批处理文件如何注意Java中不同语言环境中的文件名   用于IntelliJ中声纳、PMD、Findbugs和Checkstyle的Java 8   在PIG程序中找不到java类分布式文件系统   Java游戏引擎中动态ZOrdering的绘制   java处理线程工作者的多个错误   带有MariaDB驱动程序的java MySQL服务器产生日期排序错误   java终止线程的正确方法   java Android在手机睡眠时发送udp   java如何将文档添加到事务内部的Firebase集合?