shuyo在python中构建的快速语言检测端口

langua的Python项目详细描述


http://www.apache.org/licenses/license-2.0

d
许可证下的限制。
描述:langua
Python中https://code.google.com/archive/p/language-detection/的更快端口


r/>
语言
==

``langua``支持55种现成的语言([iso 639-1代码](https://en.wikipedia.org/wiki/list-u of-iso 639-1代码)):


af、ar、bg、bn、ca、cs、cy、da、de、el、en、es、et、fa、fi、fr、gu、he、
hi、hr、hu、id、it、ja、kn,ko,lt,lv,mk,ml,mr,ne,nl,no,pa,pl,
pt,ro,ru,sk,sl,so,sq,sv,sw,ta,te,th,tl,tr,uk,ur,vi,zh cn,zh tw


基本用法
==


p=predict>p>p>p>p>p.get‘u lang‘母亲’
>p.get‘u lang‘母亲’
‘en’
>p.get‘u lang(u‘2980瓗’
>p.get‘u lang(u‘u瓗瓗瓗’"
>>p.get‘u lang(u‘u’lang(u‘u’)
>ml'
>p>p>p.get‘u lang(u‘lang‘lang(u‘lang‘u‘lang‘u‘lang(u‘u/>===
==
``` python
>;>from langua import predict
>;>p=predict()
>;%timeit
…:p.get_lang(u"____)"
…:
1000个循环,每个循环的最佳值为3:721微秒。t detect
>;%timeit
…:detect(u"____)"
1000个循环,每个循环最好3:1.07 ms

````


如何添加新语言?
==



您需要创建一个新的语言配置文件。最简单的方法是使用[langdetect.jar]工具(https://github.com/shuyo/language-detection/raw/master/lib/langdetect.jar),该工具可以从维基百科的抽象数据库文件或纯文本中生成语言配置文件。

wikimedia.org/](http://download.wikimedia.org/))。它们形成了"(语言代码)wiki-(version)-abstract.xml"(例如,"enwiki-20101004-abstract.xml")。

用法:``java-jar langdetect.jar--genprofile-d[目录路径][语言代码]```

-通过-d选项指定包含抽象数据库的目录。
-此工具可以处理gzip压缩的文件。

备注:中文数据库文件名类似"zhwiki-(version)-abstract zh cn.xml"或"zhwiki-(version)-abstract zh tw.xml",因此必须修改"zh cnwiki-(version)-abstract.xml"或"zh twwiki-(version)-abstract.xml"。

若要从纯文本生成语言配置文件,请使用genprofile text命令。

用法:``java-jar langdetect.jar--genprofile text-l[语言代码][文本文件路径]``

有关详细信息,请参见[语言检测wiki](https://code.google.com/archive/p/language detection/wikis/tools.wiki)。


========


这是对[langDetect]的矢量化修改(https://github.com/mimino666/langDetect)。有一些数字py优化和其他一些改进
,它们提高了预测语言类的性能。


push to pypi
===


参考[本](https://packaging.python.org/tutorials/distributing-packages/)


关键词:语言检测库
平台:未知
分类器:开发状态:5-生产/稳定
分类器:预期的听觉E::开发人员
分类器:许可证::OSI批准::Apache软件许可证
分类器:操作系统::操作系统无关
分类器:编程语言::Python::2
分类器:编程语言::Python::2.7
分类器:编程语言::Python::3
CLAssifier:编程语言::python::3.4
分类器:编程语言::python::3.5
分类器:编程语言::python::3.6

    标签:

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
springmvc web应用程序中的java导航出错/无效   java是一种JTable,其中每行中的列数可能不同   java哈希表不递减   在Java中使用Path和Path   java如何让服务知道应用程序何时被终止以清除通知?   java为什么sqlite看起来无法在设备中运行?   java Maven jetty插件和资源目录   java将负秒转换为小时:分钟:秒   java简单的安卓和ASP。净组合   java程序编译得非常好,但在运行其drop时,字符串输入会出错   java无状态AjaxFallbackButton?   Java字符串UTF和字节表示   无法从静态上下文引用java Gson非静态变量   java从网站中提取信息   java将派生对象引用分配给基类的变量将不起作用   java CXF自动生成失败   内存如何避免在Java中产生垃圾?   java Jersey:重定向到Jersey根目录之外   java Firestore遍历文档以查找空字段   java中ReadLock的并发检查副本