冰岛三位一体统计
icegrams的Python项目详细描述
概述
icegrams 是一个python 3.x包,它封装了 用于冰岛语的大型trigram库 。(三元组是 出现在真实文本中的三个连续单词或标记。)
使用基数尝试和 准简洁索引 采用 伊莱亚斯法诺编码。这样就可以映射压缩的trigram文件 直接进入内存,无需预先解压缩,用于快速查询 (通常每次查找约40微秒)。
冰晶库是用Python和C/C++实现的,粘在一起 cffi
Trigram存储方法基于 2017年pibiri和venturini的论文 , 也指 奥塔维亚诺和文图里尼 (2014)关于分区elias fano索引。
您可以使用Icegrams来获取 超过一百万个不同的Unigrams(单个单词或标记),或 双字图 (两个单词或标记对),或 三字图 。你也可以 要求它返回任何unigram或bigram的n个最可能的继承者。
Icegrams在拼写更正、预测性键入、 为了帮助残疾人更快地编写文本,并生成各种文本, 统计和建模任务。
Icegrams建立在greynir.is的数据库上, 包含600多万个从冰岛新闻文章中解析出来的句子。