多语言文档语言识别
seqtolang的Python项目详细描述
塞克托朗
seqtolang
是一个用于识别多语言文档的python库。在
有关实现的详细信息,请参见this帖子。在
入门
从源安装:
$ git clone https://github.com/hiredscorelabs/seqtolang
$ cd seqtolang
$ python setup.py install
或者使用PyPi:
^{pr2}$基本用法:
fromseqtolangimportDetectordetector=Detector()text="In Chinese, the French phrase 'Je rentre chez moi Je rentre chez moi' will be '我正在回家'"languages=detector.detect(text)print(languages)>>>[('fr',0.499),('en',0.437),('zh',0.062)]tokens=detector.detect(text,aggregated=False)print(tokens)>>>['eng','eng','eng','eng','eng','fra','fra','fra','fra','fra','fra','fra','fra','eng','eng','zho']
seqtolang
支持36种语言:
['afr', 'eus', 'bel', 'ben', 'bul', 'cat', 'zho', 'ces', 'dan', 'nld', 'eng', 'est', 'fin', 'fra',
'glg', 'deu', 'ell', 'hin', 'hun', 'isl', 'ind', 'gle', 'ita', 'jpn', 'kor', 'lat', 'lit', 'pol',
'por', 'ron', 'rus', 'slk', 'spa', 'swe', 'ukr', 'vie']
支持
寻求帮助
您可以在Github Issues上提问并加入开发讨论
许可证
Apache许可证2.0
- 项目
标签: