从马拉雅拉姆语单词中提取词根
root-pack的Python项目详细描述
马拉雅拉姆的根提取模块
在大多数马拉雅拉姆语语言处理系统的预处理阶段,词根的提取是至关重要的。根提取模块可以派生任何给定单词的根,而不必考虑后缀的数目或与词干相连的单词的数目。
要求
Python3
安装
您可以创建用于安装包的虚拟环境。
python -m venv ENV_DIR
source ENV_DIR/bin/activate
并安装根提取程序
pip install root-pack
否则,请使用
pip install --user root-pack
实施方法
安装后,您可以导入模块以利用根()函数
import root_pack
root_pack.root(wordi)
上面的代码将输出输入单词wordi的根。输入词必须用马拉雅拉姆语。
例如,
如果您需要找到单词“________”的词根,可以执行以下步骤
import root_pack
root_pack.root("മകന്റെയുമാണെന്നാണ്")
输出:
മകന്
提取器的优点
- 三地规则被考虑在内
- 规则是通用的,而不是在代码中显式地指定每个规则
- 引入递归函数,因此有助于轻松删除附加的任何数量的后缀
- 准确率相当高
作者
金西宝贝