Python Interface to a Free Corpus Subset from Ruscora.ru
ruscorpora-tools的Python项目详细描述
这个包为一个自由的语料库子集提供了python接口 在http://ruscorpora.ru提供。
安装
pip install ruscorpora-tools
用法
语料库下载
从以下位置下载并解压缩包含XML文件的存档文件 http://www.ruscorpora.ru/corpora-usage.html
语料库阅读
ruscorpora.parse_xml函数解析单个xml文件并返回 对句子的迭代器;每个句子都是^{tt2}的列表$ 实例,用ruscorpora.Annotation实例列表进行注释。
ruscorpora.simplify将ruscorpora.parse_xml的结果简化为 删除不明确的注释,连接拆分的标记(+连接它们的 注释)和删除重音信息。
>>> import ruscorpora as rnc >>> for sent in rnc.simplify(rnc.parse('fiction.xml')): ... print(sent)
开发
在GitHub和BitBucket进行开发:
问题跟踪程序位于github:https://github.com/kmike/ruscorpora-tools/issues
随时提交想法、bug、请求(git或hg)或常规补丁。