轻量级、快速和可扩展的文本语料库。

Corpora的Python项目详细描述


欢迎来到下士!
====
*语料库*是一个轻量级的、快速的、可扩展的语料库,能够存储带有附加键值标题的原始文本文档集合。它使用Berkeley DB(BSDDB3模块)进行索引管理,以保证速度和防弹性。文本存储模型是基于分块的、人类可读的文本文件。这种结构可以轻松地扩展到数百万个文档,数百GB的集合。

corpora模块提供四个主要功能:
*创建新的语料库,
*将文档附加到语料库,
*使用其唯一的“id”随机访问语料库中的任何文档,
*对文档集合的顺序访问(生成器对集合的顺序访问)。

corpora只支持追加只读哲学,有关更多信息,请阅读doc:`motivation`.

…_山药:http://www.yaml.org/


quickstart
>

安装:


>
>>;sudo-pip-pip-install-corpora


基本用法:



>>>>>>;从corpora-import corpopus
>>;
>>>gt;>corpos.create('/tmp/test-cupus')
>>>>>;>c=corpus('/tmp/test/tmp/test-cupupupupus')
>;c=corgt;gt;c.add('first document',1)
>gt>gt>gt;c.add('first document',1)
>gt>gt;c.save_index()
>>;lt;len(c)
>2
>>;c[1]
({'id''1},u'first document')
>;c[2]
({'id''id''2},u'second document 2},u'first document')
>>>gt;c:
>>>>>gt;c.save保存索引(
>>>>>>>>>;
;c;c;
…打印t

({'id':1},u'first document')
({'id':2},u'second document')

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javafx在java中显示图像或形状的二维网格   java如何部署WAR文件而不是根文件。AWS Elastic Beanstalk中配置了Amazon AMI的war?   java如何在Eclipse中设置runnable jar的目标版本   Java 8流/收集器按地图分组   java ParseServer:不保存用户信息?   MySQL:java。sql。BatchUpdateException:键“PRIMARY”的重复条目“242243”   java Jersey测试框架为grizzly中的所有未知路径定义默认错误响应   java使用所有请求参数将请求从一个jsp转发到另一个jsp?   java为什么在JavaFX8中选择CheckboxTableCell时SelectedStateCallback不起作用?   期待EOF的java发现“异常”   java如何使用SeleniumWebDriver捕获弹出窗口的屏幕?   java无法从安卓手机向我的数据库发送截击post请求   java Selenium单击切换元素   java使用Spring api向服务器发送数据   继承和创建新类之间的java差异   数组io。内蒂。ByteBuf writeBytes(java.nio.ByteBuffer src)顶点化   java相对于多次选择和一次更新,删除和插入的代价有多高?   java单向一对多,父级具有复合密钥   Java Spring批处理多线程作业失败,原因是“致命:由于idleintransaction超时而终止连接”