用于管理多种语言中的停止字的python库。
mots-vides的Python项目详细描述
用于管理39种语言中常用停止字的python库。
内容
Usage
Simple
比长篇大论好,这里有一个直接的介绍:
>>> from mots_vides import stop_words >>> english_stop_words = stop_words('en') >>> text = """ ... Even though using "lorem ipsum" often arouses curiosity ... due to its resemblance to classical Latin, ... it is not intended to have meaning. ... """ >>> print(english_stop_words.rebase(text)) XXXX XXXXXX XXXXX "lorem ipsum" XXXXX arouses curiosity XXX XX XXX resemblance XX classical Latin, XX XX XXX intended XX XXXX meaning. >>> print(english_stop_words.rebase(text, '').split()) ['"lorem', 'ipsum"', 'arouses', 'curiosity', 'resemblance', 'classical', 'Latin,', 'intended', 'meaning.']
Advanced
mots vides还提供了两个类来管理 语言。
StopWord,它是一个停止字集合的容器。 默认情况下是语言不可知的,但是可以很容易地操作来创建 收藏:
>>> from mots_vides import StopWord >>> french_stop_words = StopWord('french', ['le', 'la', 'les']) >>> french_stop_words += StopWord('french', ['un', 'une', 'des']) >>> french_stop_words += ['or', 'ni', 'car'] >>> french_stop_words += 'assez' >>> french_stop_words += u'aussitôt' >>> print(sorted(french_stop_words)) ['assez', u'aussitôt', 'car', 'des', 'la', 'le', 'les', 'ni', 'or', 'un', 'une']
StopWordFactory是用于初始化StopWord对象的工厂 语言和适当的停止词集合。
>>> from mots_vides import StopWordFactory >>> factory = StopWordFactory() >>> french_stop_words = factory.get_stop_words('french') >>> print(len(french_stop_words)) 577
您还可以使用国际语言代码查询收藏:
>>> french_stop_words = factory.get_stop_words('fr') >>> print(len(french_stop_words)) 577
如果所需语言不存在,则引发^ {TT4}$; 除非fail_safe参数设置为True:
>>> klingon_stop_words = factory.get_stop_words('klingon') StopWordError: Stop words are not available in "klingon". >>> klingon_stop_words = factory.get_stop_words('klingon', fail_safe=True) >>> print(len(klingon_stop_words)) 0
Supported languages
- 阿拉伯语
- 亚美尼亚语
- 巴斯克语
- 孟加拉文
- 保加利亚语
- 加泰罗尼亚语
- 中文
- 捷克语
- 丹麦语
- 荷兰语
- 英语
- 芬兰语
- 法语
- 加利西亚语
- 德语
- 希腊语
- 印地语
- 匈牙利语
- 印度尼西亚语
- 爱尔兰语
- 意大利语
- 日语
- 韩语
- 拉脱维亚语
- 立陶宛语
- 马拉地语
- 挪威语
- 波斯语
- 抛光
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 斯洛伐克语
- 西班牙语
- 瑞典语
- 泰语
- 土耳其语
- 乌克兰语
- 乌尔都语
Compatibility
使用Python2.6、2.7、3.2、3.3、3.4进行测试。
Changelog
2015.5.11
- 修复python 3的缓存系统
2015.2.6
- 修复工厂中的潜在问题。获取可用语言
2015.2.5
- 固定包装
- 添加rebar命令脚本
2015.2.4
- 初始版本
2015.1.21.dev0
- 开发版本