轻量级、快速和可扩展的文本语料库。
Corpora的Python项目详细描述
欢迎来到下士!
====
*语料库*是一个轻量级的、快速的、可扩展的语料库,能够存储带有附加键值标题的原始文本文档集合。它使用Berkeley DB(BSDDB3模块)进行索引管理,以保证速度和防弹性。文本存储模型是基于分块的、人类可读的文本文件。这种结构可以轻松地扩展到数百万个文档,数百GB的集合。
corpora模块提供四个主要功能:
*创建新的语料库,
*将文档附加到语料库,
*使用其唯一的“id”随机访问语料库中的任何文档,
*对文档集合的顺序访问(生成器对集合的顺序访问)。
corpora只支持追加只读哲学,有关更多信息,请阅读doc:`motivation`.
…_山药:http://www.yaml.org/
quickstart
>
安装:
:
:
>
>>;sudo-pip-pip-install-corpora
基本用法:
>>>>>>;从corpora-import corpopus
>>;
>>>gt;>corpos.create('/tmp/test-cupus')
>>>>>;>c=corpus('/tmp/test/tmp/test-cupupupupus')
>;c=corgt;gt;c.add('first document',1)
>gt>gt>gt;c.add('first document',1)
>gt>gt;c.save_index()
>>;lt;len(c)
>2
>>;c[1]
({'id''1},u'first document')
>;c[2]
({'id''id''2},u'second document 2},u'first document')
>>>gt;c:
>>>>>gt;c.save保存索引(
>>>>>>>>>;
;c;c;
…打印t
…
({'id':1},u'first document')
({'id':2},u'second document')
====
*语料库*是一个轻量级的、快速的、可扩展的语料库,能够存储带有附加键值标题的原始文本文档集合。它使用Berkeley DB(BSDDB3模块)进行索引管理,以保证速度和防弹性。文本存储模型是基于分块的、人类可读的文本文件。这种结构可以轻松地扩展到数百万个文档,数百GB的集合。
corpora模块提供四个主要功能:
*创建新的语料库,
*将文档附加到语料库,
*使用其唯一的“id”随机访问语料库中的任何文档,
*对文档集合的顺序访问(生成器对集合的顺序访问)。
corpora只支持追加只读哲学,有关更多信息,请阅读doc:`motivation`.
…_山药:http://www.yaml.org/
quickstart
>
安装:
:
:
>
>>;sudo-pip-pip-install-corpora
基本用法:
>>>>>>;从corpora-import corpopus
>>;
>>>gt;>corpos.create('/tmp/test-cupus')
>>>>>;>c=corpus('/tmp/test/tmp/test-cupupupupus')
>;c=corgt;gt;c.add('first document',1)
>gt>gt>gt;c.add('first document',1)
>gt>gt;c.save_index()
>>;lt;len(c)
>2
>>;c[1]
({'id''1},u'first document')
>;c[2]
({'id''id''2},u'second document 2},u'first document')
>>>gt;c:
>>>>>gt;c.save保存索引(
>>>>>>>>>;
;c;c;
…打印t
…
({'id':1},u'first document')
({'id':2},u'second document')