猜猜文本的自然语言

guess-language的Python项目详细描述


尝试确定选定Unicode(UTF-8)文本的自然语言。

基于guesslanguage.cpp 作者Jacob R Rideout for KDE,其本身基于 Language::Guess作者:Maciej Ceglowski。

检测超过60种语言-列出在trigrams中的所有语言 目录加上日语,中文,韩语和希腊语。

guess_语言使用基于示例文本中的字符集和三角图的启发式方法 检测语言。它对较长的样本更有效,如果 示例文本包括标记,如HTML标记。

用法

主入口点都以单个字符串作为输入并返回一个语言标识符。 字符串必须是Unicode或UTF-8文本。语言标识符可以是语言名 在英语中,两个或三个字母的IANA语言代码、一个语言标识或一个包含 三个密码。

主要入口点和返回值如下:

guessLanguage(txt) - IANA language code
guessLanguageTag(txt) - IANA language code (same as guessLanguage)
guessLanguageName(txt) - Language name in English
guessLanguageId(txt) - language ID
guessLanguageInfo(txt) - tuple of (IANA code, id, name)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java最终变量可能尚未初始化   springsecurity中的java MySQL查询。用于授权的xml   java My servlet返回null   多线程如何修复java。util。同时发生的CompletionException:java。StackOverflowerr先生   java在找不到请求的页面或方法时如何定义全局页面?   java连接到UI线程安全Android   如何在java中去除图像的白色背景   java Group在SQL或代码中更好地聚合了数据(在性能方面)   JavaAndroid:在Eclipse的图形布局编辑器中自由移动按钮   java单元测试Mockito MyBatis为返回布尔值的selectone引发空指针异常   如何使用aes在java中加密/解密文件?   java在使用复制构造函数时并发修改列表