用于管理多种语言中的停止字的python库。

mots-vides的Python项目详细描述


Build Status - develop branchCoverage of the code

用于管理39种语言中常用停止字的python库。

Usage

Simple

比长篇大论好,这里有一个直接的介绍:

>>> from mots_vides import stop_words

>>> english_stop_words = stop_words('en')
>>> text = """
... Even though using "lorem ipsum" often arouses curiosity
... due to its resemblance to classical Latin,
... it is not intended to have meaning.
... """

>>> print(english_stop_words.rebase(text))
XXXX XXXXXX XXXXX "lorem ipsum" XXXXX arouses curiosity
XXX XX XXX resemblance XX classical Latin,
XX XX XXX intended XX XXXX meaning.

>>> print(english_stop_words.rebase(text, '').split())
['"lorem', 'ipsum"', 'arouses', 'curiosity', 'resemblance',
'classical', 'Latin,', 'intended', 'meaning.']

Advanced

mots vides还提供了两个类来管理 语言。

StopWord,它是一个停止字集合的容器。 默认情况下是语言不可知的,但是可以很容易地操作来创建 收藏:

>>> from mots_vides import StopWord

>>> french_stop_words = StopWord('french', ['le', 'la', 'les'])
>>> french_stop_words += StopWord('french', ['un', 'une', 'des'])
>>> french_stop_words += ['or', 'ni', 'car']
>>> french_stop_words += 'assez'
>>> french_stop_words += u'aussitôt'
>>> print(sorted(french_stop_words))
['assez', u'aussitôt', 'car', 'des', 'la', 'le', 'les', 'ni', 'or', 'un', 'une']

StopWordFactory是用于初始化StopWord对象的工厂 语言和适当的停止词集合。

>>> from mots_vides import StopWordFactory

>>> factory = StopWordFactory()
>>> french_stop_words = factory.get_stop_words('french')
>>> print(len(french_stop_words))
577

您还可以使用国际语言代码查询收藏:

>>> french_stop_words = factory.get_stop_words('fr')
>>> print(len(french_stop_words))
577

如果所需语言不存在,则引发^ {TT4}$; 除非fail_safe参数设置为True

>>> klingon_stop_words = factory.get_stop_words('klingon')
StopWordError: Stop words are not available in "klingon".
>>> klingon_stop_words = factory.get_stop_words('klingon', fail_safe=True)
>>> print(len(klingon_stop_words))
0

Supported languages

  • 阿拉伯语
  • 亚美尼亚语
  • 巴斯克语
  • 孟加拉文
  • 保加利亚语
  • 加泰罗尼亚语
  • 中文
  • 捷克语
  • 丹麦语
  • 荷兰语
  • 英语
  • 芬兰语
  • 法语
  • 加利西亚语
  • 德语
  • 希腊语
  • 印地语
  • 匈牙利语
  • 印度尼西亚语
  • 爱尔兰语
  • 意大利语
  • 日语
  • 韩语
  • 拉脱维亚语
  • 立陶宛语
  • 马拉地语
  • 挪威语
  • 波斯语
  • 抛光
  • 葡萄牙语
  • 罗马尼亚语
  • 俄语
  • 斯洛伐克语
  • 西班牙语
  • 瑞典语
  • 泰语
  • 土耳其语
  • 乌克兰语
  • 乌尔都语

Compatibility

使用Python2.6、2.7、3.2、3.3、3.4进行测试。

Notes

mots vides在法语中是指stop words

灵感来自https://github.com/Alir3z4/python-stop-words

Changelog

2015.5.11

  • 修复python 3的缓存系统

2015.2.6

  • 修复工厂中的潜在问题。获取可用语言

2015.2.5

  • 固定包装
  • 添加rebar命令脚本

2015.2.4

  • 初始版本

2015.1.21.dev0

  • 开发版本

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java泛型和基类   ProcessBuilder或DefaultExecutor启动的“RunAs”子进程的java读取标准输出   java应用程序在尝试登录时突然停止   Java:神秘的Java未捕获异常处理程序[带代码]   java JavaFX NumberAxis自动范围无限循环   最新版本和旧版本冲突的java双Maven依赖关系   java如何导入带有部署变量类名的静态函数?   编译器构造不同的JDK更新会产生不同的Java字节码吗?   java无法在struts 1.1中上载任何超过250 MB大小的文件   java调整jcombobox下拉菜单的宽度   java如何在某些情况下忽略@SQLDelete注释   在Eclipse for Java EE developers edition中禁用HTML警告   java HttpUrlConnection重置请求属性   java@Provider资源未在rest应用程序中注册   java TOP N使用JPA连接   java在使用反射调用方法时区分int和Integer参数