又是一个泰语的代词
attacut的Python项目详细描述
attacut:泰语的快速而准确的单词标记器
TLDR: 基于字符和音节特征的三层扩张cnn
安装
$ pip install attacut
用法
命令行界面
$ attacut-cli -h
AttaCut: Fast and Reasonably Accurate Tokenizer for Thai
Usage:
attacut-cli <src> [--dest=<dest>] [--model=<model>]
attacut-cli (-h | --help)
Options:
-h --help Show this screen.
--model=<model> Model to be used [default: attacut-sc].
--dest=<dest> If not specified, it'll be <src>-tokenized-by-<model>.txt
高级推理
又名。模块导入
from attacut import Tokenizer
atta = Tokenizer(model="attacut-sc")
atta.tokenizer(txt)
基准结果
以下是简短的总结。有关详细信息,请参见our benchmarking page。
标记化质量
速度
重新培训自定义数据集
相关资源
致谢
这个知识库最初是由Pattarawat Chormai完成的,当时在泰国曼谷朱拉隆功大学的Dr. Attapol Thamrongrattanarit's NLP Lab实习。 许多人参与了这个项目。完整的名字列表可以在Acknowledgement上找到。