zctextindex的Unicode识别词典
Products.UnicodeLexicon的Python项目详细描述
动机
标准的ZCtTeXTeX词典只处理8位字符串(仅) 如果您正确设置zope.conflocale。 它不处理unicode或utf-8。填补这个空白。
安装
此产品向Zope添加了ZCtTeXECUTE Unicode词典类型。这个 词汇附带文字分词器,停止字删除器,一个案例normalizer, 还有两个口音标准化器。
如果安装了genericsetup,则可以使用包含的扩展 在您的PATALL目录和更新中创建一个UnoDeleX图标 title、description和searchabletextzctextindex。
没有从UndoDeleXiCon 1升级路径。如果您的 系统中,您必须删除和重新创建词典。
管道元件
拆分器适用于所有将单词与 空白字符。
停止词去除者只知道英语停止词。
口音标准化器有两种口味。拉丁语有一个标准化器 和西欧文本(fr、es、pt、it、en、nl),一个用于德语和 斯堪的纳维亚语文本(de、dk、no、se、fi、is)。后者保留元音变调 人物_,_,和_。
自定义管道元素
可以通过zcml注册其他管道元素。例如:
<configure xmlns="http://namespaces.zope.org/zope" xmlns:unicodelexicon="http://namespaces.zope.org/unicodelexicon"> <include package="Products.UnicodeLexicon" file="meta.zcml" /> <unicodelexicon:registerPipelineElement group="Accent Normalizer" name="Normalize accented chars (Custom text)" factory="my.package.pipeline.MyCustomNormalizer" /> </configure>
默认编码
词典假定Unicode或UTF-8。如果应用程序使用 不同的编码,您可以通过注册编码来覆盖默认值 作为实用工具:
<configure xmlns="http://namespaces.zope.org/zope"> <utility provides="Products.UnicodeLexicon.interfaces.IDefaultEncoding" component="my.package.pipeline.defaultEncoding" /> </configure>
更改日志
2.2-2011-01-30
- 允许重写zcml中的默认编码。 [斯特凡]
2.1-2011-01-26
- 添加在zcml中注册管道元素的功能。 [斯特凡]
- 修正更新pipelinefactory时的错误。 [斯特凡]
2.0-2011-01-21
- 添加已订购的管道工厂。 [斯特凡]
- 添加一个重音规范化管道元素,该元素最初由 马克·奥雷尔·达奇。 [斯特凡]
- 释放为Python蛋。 [斯特凡]
1.0-2006-08-14
- 初次发布。 [斯特凡]