猜猜文本的自然语言
guess-language的Python项目详细描述
尝试确定选定Unicode(UTF-8)文本的自然语言。
基于guesslanguage.cpp 作者Jacob R Rideout for KDE,其本身基于 Language::Guess作者:Maciej Ceglowski。
检测超过60种语言-列出在trigrams中的所有语言 目录加上日语,中文,韩语和希腊语。
guess_语言使用基于示例文本中的字符集和三角图的启发式方法 检测语言。它对较长的样本更有效,如果 示例文本包括标记,如HTML标记。
用法
主入口点都以单个字符串作为输入并返回一个语言标识符。 字符串必须是Unicode或UTF-8文本。语言标识符可以是语言名 在英语中,两个或三个字母的IANA语言代码、一个语言标识或一个包含 三个密码。
主要入口点和返回值如下:
guessLanguage(txt) - IANA language code guessLanguageTag(txt) - IANA language code (same as guessLanguage) guessLanguageName(txt) - Language name in English guessLanguageId(txt) - language ID guessLanguageInfo(txt) - tuple of (IANA code, id, name)