泰语自然语言处理库
pythainlp的Python项目详细描述
毕达因
pythainlp是一个用于泰语自然语言处理(nlp)的python库。
pythainlp包括泰语单词标记器、音译器、soundex转换器、部分语音标记器和拼写检查器。
在Facebook上关注我们PyThaiNLP
2.0有什么新功能?
- 终止Python2支持。删除所有Python2兼容代码。
- 改进的
word_tokenize
(“newmm”和“mm”引擎),可以提供custom_dict
字典 - 词性标注的改进
pos_tag
部分 - 新的
NorvigSpellChecker
拼写检查器类,可以用自定义字典初始化。 - 新的
thai2fit
(替换thai2vec
,将ulmfit相关代码升级到fastai 1.0) - 将thainer更新为1.0
- 删除旧的、过时的、不推荐的、重复的和实验性的代码。
- 情感分析不再是库的一部分,而是a text classification example。
- 参见Get Started notebook 中的更多示例
- Full change log
- Upgrading from 1.7
安装
对于稳定版本:
pip install pythainlp
对于某些高级功能,如word vector,可能需要额外的包。在PIP安装期间,使用以下选项安装它们:
pip install pythainlp[extra1,extra2,...]
可提供额外服务的地方
artagger
(支持artagger词性标记)*deepcut
(支持Deepcut机器学习的标记器)icu
(用于ICU在音译和标记化方面的支持)ipa
(用于音译中的国际音标支持)ml
(支持FastAI 1.0.22 ULMFIT机型)ner
(用于命名实体识别器)thai2fit
(泰语单词向量)thai2rom
(用于机器学习的罗马化)full
(安装所有组件)
note for windows:marisa-trie
可以从https://www.lfd.uci.edu/~gohlke/pythonlibs/#marisa-trie获得轮子
用pip安装,例如:pip install marisa_trie‑0.7.5‑cp36‑cp36m‑win32.whl
链接
- 用户指南:English,ภาษาไทย
- 文件:https://thainlp.org/pythainlp/docs/2.0/
- github:https://github.com/PyThaiNLP/pythainlp
- 问题:https://github.com/PyThaiNLP/pythainlp/issues
- 脸谱网:PyThaiNLP