冰岛三位一体统计

icegrams的Python项目详细描述


概述

icegrams 是一个python 3.x包,它封装了 用于冰岛语的大型trigram库 。(三元组是 出现在真实文本中的三个连续单词或标记。)

使用基数尝试和 准简洁索引 采用 伊莱亚斯法诺编码。这样就可以映射压缩的trigram文件 直接进入内存,无需预先解压缩,用于快速查询 (通常每次查找约40微秒)。

冰晶库是用Python和C/C++实现的,粘在一起 cffi

Trigram存储方法基于 2017年pibiri和venturini的论文 , 也指 奥塔维亚诺和文图里尼 (2014)关于分区elias fano索引。

您可以使用Icegrams来获取 超过一百万个不同的Unigrams(单个单词或标记),或 双字图 (两个单词或标记对),或 三字图 。你也可以 要求它返回任何unigram或bigram的n个最可能的继承者。

Icegrams在拼写更正、预测性键入、 为了帮助残疾人更快地编写文本,并生成各种文本, 统计和建模任务。

Icegrams建立在greynir.is的数据库上, 包含600多万个从冰岛新闻文章中解析出来的句子。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java应该考虑使用DTO来代替Spring控制器层吗?   java为什么要将Maven与Git结合起来?   java试图将CSV转换为XLSX,但使用了错误的逗号拆分列   mysql Spring 3+Hibernate:java。sql。BatchUpdateException:无法添加或更新子行(ManyToMany)   java基本字符串反转器   java无法使用RestControllerAdvice为身份验证失败生成自定义错误消息   java当只允许SQLException时,如何抛出EOFEException?   java如何创建播放模块?   Android中匿名类的java实例化异常问题   java两个停靠组件,其中第二个组件填充剩余空间   java如何在按钮延迟时启用它   Java中正在运行的应用程序中的后台进程   java我正试图从一个字符串打印出这个字符输出   如何使用java socket通过两个不同的wifi连接两台电脑?   javaapachecamel:如何将分层数据从数据库转换为pojo   java Webrtc:OniconConnectionChange和onConnectionChange之间有什么区别   java如何重写已经创建的JTable方法   爪哇扫雷机堆垛机   雅加达ee Java ee EJB 3.0 Glassfish