从马拉雅拉姆语单词中提取词根

root-pack的Python项目详细描述


马拉雅拉姆的根提取模块

在大多数马拉雅拉姆语语言处理系统的预处理阶段,词根的提取是至关重要的。根提取模块可以派生任何给定单词的根,而不必考虑后缀的数目或与词干相连的单词的数目。

要求

Python3

安装

您可以创建用于安装包的虚拟环境。

python -m venv ENV_DIR
source ENV_DIR/bin/activate

并安装根提取程序

pip install root-pack

否则,请使用

pip install --user root-pack

实施方法

安装后,您可以导入模块以利用根()函数

import root_pack
root_pack.root(wordi)

上面的代码将输出输入单词wordi的根。输入词必须用马拉雅拉姆语。

例如,

如果您需要找到单词“________”的词根,可以执行以下步骤

import root_pack
root_pack.root("മകന്റെയുമാണെന്നാണ്")

输出:

മകന്‍

提取器的优点

  1. 三地规则被考虑在内
  2. 规则是通用的,而不是在代码中显式地指定每个规则
  3. 引入递归函数,因此有助于轻松删除附加的任何数量的后缀
  4. 准确率相当高

作者

金西宝贝

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java AmazonS3ClientBuilder使用错误的凭据工作   java高效日程管理器   java JTable在使用DefaultTableModel插入后未刷新   使用SQL DB的Java程序的资源注意事项   Java内存中的变量保存在哪里?   Java并发多线程安全发布实例   带通配符的xml Java getElmentsByTagName   在Excel(XLSX)中聚焦并确认公式之前,不会对java公式单元格进行求值   java进程通过REST端点从Spark应用程序中接收请求   java ActiveMq Producer将JMS消息发送到目标队列需要更长的时间   java需要帮助在特定文件夹中创建sqlite数据库   javabean验证XML整个Bean   如何在Java配置中正确定义Spring集成JpaOutboundGateway?   sqlite java数据库接口事务层   名称不同于“Id”的java@Id字段   java文本文档正在成为文件夹   java让缓冲图像而不是面板消失3秒钟   java当我尝试打印所有组时,得到“IndexOutOfBoundsException:无组4”   javascript JQuery自动完成函数导致引用错误