冰岛三位一体统计

icegrams的Python项目详细描述


概述

icegrams 是一个python 3.x包,它封装了 用于冰岛语的大型trigram库 。(三元组是 出现在真实文本中的三个连续单词或标记。)

使用基数尝试和 准简洁索引 采用 伊莱亚斯法诺编码。这样就可以映射压缩的trigram文件 直接进入内存,无需预先解压缩,用于快速查询 (通常每次查找约40微秒)。

冰晶库是用Python和C/C++实现的,粘在一起 cffi

Trigram存储方法基于 2017年pibiri和venturini的论文 , 也指 奥塔维亚诺和文图里尼 (2014)关于分区elias fano索引。

您可以使用Icegrams来获取 超过一百万个不同的Unigrams(单个单词或标记),或 双字图 (两个单词或标记对),或 三字图 。你也可以 要求它返回任何unigram或bigram的n个最可能的继承者。

Icegrams在拼写更正、预测性键入、 为了帮助残疾人更快地编写文本,并生成各种文本, 统计和建模任务。

Icegrams建立在greynir.is的数据库上, 包含600多万个从冰岛新闻文章中解析出来的句子。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java 2D数组,查找包含元素   包含EBCDIC值的java打印字节数组未给出预期值   java应用程序重新启动,由于AndroidRuntime异常而无法运行   java在spring中对拦截器的使用   java ActiveMQ,代理接收要发送的消息的时间戳   JAVA:如何从需要启用Cookie的站点下载HTML文件?   邮件发送期间发生java证书错误   Java错误:类事务中的构造函数事务无法应用于给定类型   方法的Java对象空检查   Java如何在多个源文件夹之间使用全局变量?   二进制字符串到整数转换器中的java错误   java在关闭页面后保存数据   c#使用java客户端使用WCF restful Web服务?   java在从vimeo api获取后更改iframe src   API低于17的java Android AlertDialog setOnDismissListener   java如何将文本从对象的ArrayList设置为TextView?   java OpenCV Android imwrite给我一个蓝色图像   java能够在RecyclerView中同时单击两个项目   java将字节数组写入文件的快速方法