shuyo在python中构建的快速语言检测端口

langua的Python项目详细描述


http://www.apache.org/licenses/license-2.0

d
许可证下的限制。
描述:langua
Python中https://code.google.com/archive/p/language-detection/的更快端口


r/>
语言
==

``langua``支持55种现成的语言([iso 639-1代码](https://en.wikipedia.org/wiki/list-u of-iso 639-1代码)):


af、ar、bg、bn、ca、cs、cy、da、de、el、en、es、et、fa、fi、fr、gu、he、
hi、hr、hu、id、it、ja、kn,ko,lt,lv,mk,ml,mr,ne,nl,no,pa,pl,
pt,ro,ru,sk,sl,so,sq,sv,sw,ta,te,th,tl,tr,uk,ur,vi,zh cn,zh tw


基本用法
==


p=predict>p>p>p>p>p.get‘u lang‘母亲’
>p.get‘u lang‘母亲’
‘en’
>p.get‘u lang(u‘2980瓗’
>p.get‘u lang(u‘u瓗瓗瓗’"
>>p.get‘u lang(u‘u’lang(u‘u’)
>ml'
>p>p>p.get‘u lang(u‘lang‘lang(u‘lang‘u‘lang‘u‘lang(u‘u/>===
==
``` python
>;>from langua import predict
>;>p=predict()
>;%timeit
…:p.get_lang(u"____)"
…:
1000个循环,每个循环的最佳值为3:721微秒。t detect
>;%timeit
…:detect(u"____)"
1000个循环,每个循环最好3:1.07 ms

````


如何添加新语言?
==



您需要创建一个新的语言配置文件。最简单的方法是使用[langdetect.jar]工具(https://github.com/shuyo/language-detection/raw/master/lib/langdetect.jar),该工具可以从维基百科的抽象数据库文件或纯文本中生成语言配置文件。

wikimedia.org/](http://download.wikimedia.org/))。它们形成了"(语言代码)wiki-(version)-abstract.xml"(例如,"enwiki-20101004-abstract.xml")。

用法:``java-jar langdetect.jar--genprofile-d[目录路径][语言代码]```

-通过-d选项指定包含抽象数据库的目录。
-此工具可以处理gzip压缩的文件。

备注:中文数据库文件名类似"zhwiki-(version)-abstract zh cn.xml"或"zhwiki-(version)-abstract zh tw.xml",因此必须修改"zh cnwiki-(version)-abstract.xml"或"zh twwiki-(version)-abstract.xml"。

若要从纯文本生成语言配置文件,请使用genprofile text命令。

用法:``java-jar langdetect.jar--genprofile text-l[语言代码][文本文件路径]``

有关详细信息,请参见[语言检测wiki](https://code.google.com/archive/p/language detection/wikis/tools.wiki)。


========


这是对[langDetect]的矢量化修改(https://github.com/mimino666/langDetect)。有一些数字py优化和其他一些改进
,它们提高了预测语言类的性能。


push to pypi
===


参考[本](https://packaging.python.org/tutorials/distributing-packages/)


关键词:语言检测库
平台:未知
分类器:开发状态:5-生产/稳定
分类器:预期的听觉E::开发人员
分类器:许可证::OSI批准::Apache软件许可证
分类器:操作系统::操作系统无关
分类器:编程语言::Python::2
分类器:编程语言::Python::2.7
分类器:编程语言::Python::3
CLAssifier:编程语言::python::3.4
分类器:编程语言::python::3.5
分类器:编程语言::python::3.6

    标签:

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Spinner选定值未上载到firebase数据库   java如何通过bukkit中的配置添加消息?   java在SharedReference中保存列表的泛型类型   javascript Java小程序未定义   swt在Java中构建控制台应用程序   java OAuth同意屏幕没有突然显示,没有错误?   java webview选择文件安卓不工作   java Spring boot JPA如何从同一连接添加多个数据库?   java JDBC DB2驱动程序计时器线程处于阻塞状态   java我在vscode中运行flatter时看到一个错误在phone中运行应用程序somone能否帮助我plz   Java:生成JSON:如何避免生成不完整的JSON   java Date compareTo()方法始终返回1   当使用Junit runner运行测试时,java Spring自动连线失败   java Android/Sockets如何将信息从主UI线程发送到socket线程?   java Android内存声明全局变量   java如何在JBoss中拥有多个具有相同JNDI名称的数据源?   python在Java中嵌入CPython时,为什么会挂起?   java如何提供深度模拟对象?   java“find:smallint,expected:integer”Hibernate对informix数据库的验证在短时间内失败