python类用于检测语言。

languagedet的Python项目详细描述


这个包裹是什么

languagedet包使用stopwords和trigrams实现语言检测。它有三个等级:

  • languagedet.stopwords.StopWordsDetector:使用stopword列表检测语言。
  • languagedet.textcat.TextCatDetector:使用libexttexcat库进行语言检测。
  • languagedet.mixed.MixedDetector:使用stopWordsDetector,如果失败,则使用textCatDetector。

安装

这个包依赖于libexttextcat库。在ubuntu中安装:

$ sudo apt-get install build-essential python-dev libexttextcat-dev

现在您可以使用pip进行安装:

$ pip install languagedet

示例

In [1]: from languagedet.mixed import MixedDetector

In [2]: det = MixedDetector()

In [3]: det.available
Out[3]:
['fr',
 'en',
 'de',
 'it',
 'da',
 'fi',
 'hu',
 'es',
 'ru',
 'nl',
 'pt',
 'no',
 'tr',
 'sv']

In [4]: det('biblioteca para la detectar idioma')
Out[4]: 'es'

更改日志

版本0.1.1

  • 已修改setup.py。
  • 添加了readme.txt。
  • 添加了manifest.in以包含版本0.1中缺少的数据文件。
  • 已从cython和setuptools cython中删除依赖项。

版本0.1

  • 初始版本。
  • 支持使用stopwords和exttextcat库的语言检测。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
内存Java正在运行。jar heapdump错误   java如何在安卓画布中弯曲文本区域?   java如何在Gdx 安卓游戏编程中获得矩形的真实触碰位置?   找不到java Spring MVC控制器   在Java中使用双重检查锁定单例扩展类   java在高效的时间和内存中动态执行insert(索引、数据)、delete(索引)、getAt(索引)操作。   java 安卓 Toast和视图帮助   java协议缓冲区:从文件中读取所有序列化消息   java如何在Jackson中为参数化接口类型执行通用自定义反序列化程序   与简单的空检查相比,使用(平面)映射的java优势是什么?   异步方法seam中的java Get contextparam   jar使用相同的java运行时运行另一个java程序   java访问Spring批处理中的作业参数   java给定字符串为空或null   在h2数据库1.4中找不到java类“org.h2.fulltext.FullTextLucene”。*不适用于Lucene Core 4*   java Spring Boot在使用@enableSync时不响应任何请求   java错误:在bash上找不到或加载主类pj2   “返回对象”和“返回(对象)”之间的Java差异   java Android开发:如何使用onKeyUp?