Python Corpora包_程序模块 - PyPI

轻量级、快速和可扩展的文本语料库。

Corpora的Python项目详细描述

欢迎来到下士！
====
*语料库*是一个轻量级的、快速的、可扩展的语料库，能够存储带有附加键值标题的原始文本文档集合。它使用Berkeley DB（BSDDB3模块）进行索引管理，以保证速度和防弹性。文本存储模型是基于分块的、人类可读的文本文件。这种结构可以轻松地扩展到数百万个文档，数百GB的集合。

corpora模块提供四个主要功能：
*创建新的语料库，
*将文档附加到语料库，
*使用其唯一的“id”随机访问语料库中的任何文档，
*对文档集合的顺序访问（生成器对集合的顺序访问）。

corpora只支持追加只读哲学，有关更多信息，请阅读doc:`motivation`.

…_山药：http://www.yaml.org/

quickstart
>

安装：
：
：
>
>>；sudo-pip-pip-install-corpora

基本用法：

>>>>>>；从corpora-import corpopus
>>；
>>>gt；>corpos.create（'/tmp/test-cupus'）
>>>>>；>c=corpus（'/tmp/test/tmp/test-cupupupupus'）
>；c=corgt；gt；c.add（'first document'，1）
>gt>gt>gt；c.add（'first document'，1）
>gt>gt；c.save_index（）
>>；lt；len（c）
>2
>>；c[1]
（{'id''1}，u'first document'）
>；c[2]
（{'id''id''2}，u'second document 2}，u'first document'）
>>>gt；c:
>>>>>gt；c.save保存索引（
>>>>>>>>>；
；c；c；
…打印t
…
（{'id'：1}，u'first document'）
（{'id'：2}，u'second document'）

欢迎加入QQ群-->： 979659372

Corpora 1.0

Corpora的Python项目详细描述

推荐PyPI第三方库

color-extraction

infrae.subversion

empanada

fcrypto

chapter1_2_practice

Mopidy-Mopif

maproulette

flayers

pyzillow

clanim

opal-azure-cli-container

jolokia

NooLite-F

pygift

multicache

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

Corpora 1.0

Corpora的Python项目详细描述

推荐PyPI第三方库

color-extraction

infrae.subversion

empanada

fcrypto

chapter1_2_practice

Mopidy-Mopif

maproulette

flayers

pyzillow

clanim

opal-azure-cli-container

jolokia

NooLite-F

pygift

multicache

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签