又是一个泰语的代词

attacut的Python项目详细描述


attacut:泰语的快速而准确的单词标记器

Build Status


TLDR: 基于字符和音节特征的三层扩张cnn

安装

$ pip install attacut

用法

命令行界面

$ attacut-cli -h
AttaCut: Fast and Reasonably Accurate Tokenizer for Thai

Usage:
  attacut-cli <src> [--dest=<dest>] [--model=<model>]
  attacut-cli (-h | --help)

Options:
  -h --help         Show this screen.
  --model=<model>   Model to be used [default: attacut-sc].
  --dest=<dest>     If not specified, it'll be <src>-tokenized-by-<model>.txt

高级推理

又名。模块导入

from attacut import Tokenizer

atta = Tokenizer(model="attacut-sc")
atta.tokenizer(txt)

基准结果

以下是简短的总结。有关详细信息,请参见our benchmarking page

标记化质量

速度

重新培训自定义数据集

请参考our retraining page

相关资源

致谢

这个知识库最初是由Pattarawat Chormai完成的,当时在泰国曼谷朱拉隆功大学的Dr. Attapol Thamrongrattanarit's NLP Lab实习。 许多人参与了这个项目。完整的名字列表可以在Acknowledgement上找到。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java IntelliJ找不到依赖项选项卡   java向字符串数组string[]添加元素并在Junit中测试结果   如何在eclipse中获取活动java项目的名称   如何使用java在mysql中插入时间   java ArrayList更新了插入一行,但Jtable仍然没有刷新   如何在JavaSwing中命名坐标(点)   java Matcher/模式不打印   java错误地设置了arraylist   使用UsernamePasswordCredential提供程序的java列表Azure AD   java在HTTP请求中设置UTC时间   未加载事件:jquery完整日历Java集成   java Maven插件依赖项无法从内部repo解析依赖项   Maven更新重置Java版本   java如何向中添加图片。带有Apache POI XWPF的docx,但不指定其大小   Java最大函数递归