用于管理多种语言中的停止字的python库。

mots-vides的Python项目详细描述


Build Status - develop branchCoverage of the code

用于管理39种语言中常用停止字的python库。

Usage

Simple

比长篇大论好,这里有一个直接的介绍:

>>> from mots_vides import stop_words

>>> english_stop_words = stop_words('en')
>>> text = """
... Even though using "lorem ipsum" often arouses curiosity
... due to its resemblance to classical Latin,
... it is not intended to have meaning.
... """

>>> print(english_stop_words.rebase(text))
XXXX XXXXXX XXXXX "lorem ipsum" XXXXX arouses curiosity
XXX XX XXX resemblance XX classical Latin,
XX XX XXX intended XX XXXX meaning.

>>> print(english_stop_words.rebase(text, '').split())
['"lorem', 'ipsum"', 'arouses', 'curiosity', 'resemblance',
'classical', 'Latin,', 'intended', 'meaning.']

Advanced

mots vides还提供了两个类来管理 语言。

StopWord,它是一个停止字集合的容器。 默认情况下是语言不可知的,但是可以很容易地操作来创建 收藏:

>>> from mots_vides import StopWord

>>> french_stop_words = StopWord('french', ['le', 'la', 'les'])
>>> french_stop_words += StopWord('french', ['un', 'une', 'des'])
>>> french_stop_words += ['or', 'ni', 'car']
>>> french_stop_words += 'assez'
>>> french_stop_words += u'aussitôt'
>>> print(sorted(french_stop_words))
['assez', u'aussitôt', 'car', 'des', 'la', 'le', 'les', 'ni', 'or', 'un', 'une']

StopWordFactory是用于初始化StopWord对象的工厂 语言和适当的停止词集合。

>>> from mots_vides import StopWordFactory

>>> factory = StopWordFactory()
>>> french_stop_words = factory.get_stop_words('french')
>>> print(len(french_stop_words))
577

您还可以使用国际语言代码查询收藏:

>>> french_stop_words = factory.get_stop_words('fr')
>>> print(len(french_stop_words))
577

如果所需语言不存在,则引发^ {TT4}$; 除非fail_safe参数设置为True

>>> klingon_stop_words = factory.get_stop_words('klingon')
StopWordError: Stop words are not available in "klingon".
>>> klingon_stop_words = factory.get_stop_words('klingon', fail_safe=True)
>>> print(len(klingon_stop_words))
0

Supported languages

  • 阿拉伯语
  • 亚美尼亚语
  • 巴斯克语
  • 孟加拉文
  • 保加利亚语
  • 加泰罗尼亚语
  • 中文
  • 捷克语
  • 丹麦语
  • 荷兰语
  • 英语
  • 芬兰语
  • 法语
  • 加利西亚语
  • 德语
  • 希腊语
  • 印地语
  • 匈牙利语
  • 印度尼西亚语
  • 爱尔兰语
  • 意大利语
  • 日语
  • 韩语
  • 拉脱维亚语
  • 立陶宛语
  • 马拉地语
  • 挪威语
  • 波斯语
  • 抛光
  • 葡萄牙语
  • 罗马尼亚语
  • 俄语
  • 斯洛伐克语
  • 西班牙语
  • 瑞典语
  • 泰语
  • 土耳其语
  • 乌克兰语
  • 乌尔都语

Compatibility

使用Python2.6、2.7、3.2、3.3、3.4进行测试。

Notes

mots vides在法语中是指stop words

灵感来自https://github.com/Alir3z4/python-stop-words

Changelog

2015.5.11

  • 修复python 3的缓存系统

2015.2.6

  • 修复工厂中的潜在问题。获取可用语言

2015.2.5

  • 固定包装
  • 添加rebar命令脚本

2015.2.4

  • 初始版本

2015.1.21.dev0

  • 开发版本

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java子类在构造函数中少取1个参数   arraylist在java中使用堆栈将对象添加到数组列表中   java如何使用扫描仪或缓冲读取器读取输入文件,并统计输入文件中出现的所有特定字符   java围绕其中心逆时针旋转2D数组,同时保持数组大小   java输入后,println不会输出任何内容   java未知HK2故障多重异常   SimplePath中字段的java Querydsl 4 StringExpression   循环遍历java代码中的多个集合   socket inputstream在使用BOX java sdk时损坏   java什么是面颊新闻活动?   列出比较多个整数并查找java中的最大整数   用户权限如何获得在java中Windows vista/7的C驱动器中打开目录的管理权限   范围内最大/最小值的java数据结构   文件如何使用Java下载和解压缩zip存档?   JavaSpring动态原型bean   类似于云浏览的java应用程序   java无法联系localhost:8005。关闭Tomcat时,Tomcat可能未运行错误