zctextindex的Unicode识别词典

Products.UnicodeLexicon的Python项目详细描述


动机

标准的ZCtTeXTeX词典只处理8位字符串(仅) 如果您正确设置zope.conflocale。 它不处理unicode或utf-8。填补这个空白。

安装

此产品向Zope添加了ZCtTeXECUTE Unicode词典类型。这个 词汇附带文字分词器,停止字删除器,一个案例normalizer, 还有两个口音标准化器。

如果安装了genericsetup,则可以使用包含的扩展 在您的PATALL目录和更新中创建一个UnoDeleX图标 titledescriptionsearchabletextzctextindex。

没有从UndoDeleXiCon 1升级路径。如果您的 系统中,您必须删除和重新创建词典。

管道元件

拆分器适用于所有将单词与 空白字符。

停止词去除者只知道英语停止词。

口音标准化器有两种口味。拉丁语有一个标准化器 和西欧文本(fr、es、pt、it、en、nl),一个用于德语和 斯堪的纳维亚语文本(de、dk、no、se、fi、is)。后者保留元音变调 人物_,_,和_。

自定义管道元素

可以通过zcml注册其他管道元素。例如:

<configure
  xmlns="http://namespaces.zope.org/zope"
  xmlns:unicodelexicon="http://namespaces.zope.org/unicodelexicon">

  <include package="Products.UnicodeLexicon" file="meta.zcml" />

  <unicodelexicon:registerPipelineElement
    group="Accent Normalizer"
    name="Normalize accented chars (Custom text)"
    factory="my.package.pipeline.MyCustomNormalizer"
    />

</configure>

默认编码

词典假定Unicode或UTF-8。如果应用程序使用 不同的编码,您可以通过注册编码来覆盖默认值 作为实用工具:

<configure
  xmlns="http://namespaces.zope.org/zope">

  <utility
    provides="Products.UnicodeLexicon.interfaces.IDefaultEncoding"
    component="my.package.pipeline.defaultEncoding"
    />

</configure>

更改日志

2.2-2011-01-30

  • 允许重写zcml中的默认编码。 [斯特凡]

2.1-2011-01-26

  • 添加在zcml中注册管道元素的功能。 [斯特凡]
  • 修正更新pipelinefactory时的错误。 [斯特凡]

2.0-2011-01-21

  • 添加已订购的管道工厂。 [斯特凡]
  • 添加一个重音规范化管道元素,该元素最初由 马克·奥雷尔·达奇。 [斯特凡]
  • 释放为Python蛋。 [斯特凡]

1.0-2006-08-14

  • 初次发布。 [斯特凡]

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javapojo到org。布森。文件,反之亦然   java突然增加了G1老一代的承诺内存,减少了Eden的大小   java为什么对多个RXJava观察对象不执行并行执行?   java中的枚举是故障安全的吗?如果是,怎么做?   java是等待字符串变为相等的正确方法   java CodeAbbey挑战14个数据输入问题?   在java中的任意位置插入。util。列表   java替换html中的值   java需要帮助破译一个小堆栈跟踪:我使用的是哪种WS?   java Guice依赖项注入器空指针异常   java如何在3D引擎中实现视图剪裁平面?   JavaEclipseRCP:操作与命令需要更新   java如何使用XPAGES DesignerFacesServlet显示泰语字母(以及另一个亚洲/阿拉伯字母)   java装饰器模式问题   java我对空间复杂性的分析正确吗?   不显示java OpenGL ES 2纹理   使用java问题中的wc命令计算行数   java为什么空指针异常取决于条件的顺序?   Java日期在同一天或同一个月   java在使用lambda表达式时在变量中存储一些值