猜猜文本的自然语言

guess-language的Python项目详细描述


尝试确定选定Unicode(UTF-8)文本的自然语言。

基于guesslanguage.cpp 作者Jacob R Rideout for KDE,其本身基于 Language::Guess作者:Maciej Ceglowski。

检测超过60种语言-列出在trigrams中的所有语言 目录加上日语,中文,韩语和希腊语。

guess_语言使用基于示例文本中的字符集和三角图的启发式方法 检测语言。它对较长的样本更有效,如果 示例文本包括标记,如HTML标记。

用法

主入口点都以单个字符串作为输入并返回一个语言标识符。 字符串必须是Unicode或UTF-8文本。语言标识符可以是语言名 在英语中,两个或三个字母的IANA语言代码、一个语言标识或一个包含 三个密码。

主要入口点和返回值如下:

guessLanguage(txt) - IANA language code
guessLanguageTag(txt) - IANA language code (same as guessLanguage)
guessLanguageName(txt) - Language name in English
guessLanguageId(txt) - language ID
guessLanguageInfo(txt) - tuple of (IANA code, id, name)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java数组。按字符串排序   如何使用Netbeans设置Java打印的页面大小   java有没有一种方法可以获取sparkjava/嵌入式jetty服务器的主线程执行器?   正则表达式Java正则表达式:需要更简单的解决方案   无法使用java解析XML   MySQL Java JDBC:如何获取自动递增列的名称?   java错误:“限定符必须是表达式”Android Studio   Spring+java。lang.NoClassDefFoundError:weblogic/logging/LogEntryFormatter   java将JList插入GridLayout   listview中的java Get selected复选框   使用CriteriaBuilder的java JPA左外部联接会导致错误:不允许部分对象查询维护缓存或进行编辑   java循环双链接列表addToHead和print   java更好地检测三角形按钮(libgdx)   java ConcurrentHashMap迭代保证人   java如何获取控制台。通过webdriver记录信息?   java Javafx阶段为空   java如何使用apachetika从excel文件中访问空白单元格   java使用SQlite数据库列填充AutoCompleteTextView   java如何在不使用idea构建整个maven项目的情况下运行主方法?