Python cwsplit包_程序模块 - PyPI

用于Enchant支持的语言的计算分词器

cwsplit的Python项目详细描述

支持的任何语言的复合分词器（CWSPlit） enchant。

安装

确保安装了Enchant字典。

您可以通过运行：

importenchantprint(enchant.list_languages())

检查pyenchant和 enchant链接了解更多信息。

用法

导入模块：

fromcwsplitimportsplit

德语（默认）

split('Rindfleisch')# ['rind', 'fleisch']

对于英语：

split('blackboard','en_en')# ['black', 'board']

或

fromcwsplitimportload_dictload_dict('en_en')split('blackboard')# ['black', 'board']

有时这个词拼写错了，或者根本不存在。通过执事单词将被分成几个字符，直到长单词出现。

这种行为的积极影响是在 uerberwachungsaufgaben将被分离。

另一方面，让我们想象一下，我们有一个不存在的词。 gibbrishfleisch，这将被分解成单词gib，b， e，r，i，s，h和fleisch。

split('gibberishfleisch',language='de_de')# ['gib', 'b', 'e', 'r', 'i', 's', 'h', 'fleisch']

这看起来一点也不好。这就是为什么你可以选择分拣员字号，因此所有较短的连续字词都将连接起来。为了例如，我们将最短的ward定义为4个字符长：

split('gibberishfleisch',language='de_de',min_word_size=4)# ['gibberish', 'fleisch']

现在我们得到两个单词gibberish和fleisch，这是可能会的。

这不会影响具有连接“s”的正确单词。

例如：

split('übertragungsgesetz',min_word_size=4)# ['übertragung','s', 'gesetz']

保持正确。

算法

这是一个非常简单的递归算法，查找最长的 Word中提供的单词，通过检查它是否存在于 enchant字典。输出总是作为字符串列表返回。如果没有短词如果找到，则输入单词将作为单个元素列表返回。

开发人员

上载脚本使用pandoc来在rstfromat中将readme.md转换为readme，创建包裹。如果您计划使用脚本。

欢迎加入QQ群-->： 979659372

cwsplit 0.4.1

cwsplit的Python项目详细描述

安装

用法

算法

开发人员

推荐PyPI第三方库

labeltext

manychat-block

TexDown

djangooverridestorage

py-ke

dist1-probabilit

dsnd-distributions-ah-test

zhujiabinSuperMan

edxanalyticsdataapiclient

UponorJnap

django-mp-tags

sinetstream-mqtt

fastcat

lycan

gil-gen-list-print

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

cwsplit 0.4.1

cwsplit的Python项目详细描述

安装

用法

算法

开发人员

推荐PyPI第三方库

labeltext

manychat-block

TexDown

djangooverridestorage

py-ke

dist1-probabilit

dsnd-distributions-ah-test

zhujiabinSuperMan

edxanalyticsdataapiclient

UponorJnap

django-mp-tags

sinetstream-mqtt

fastcat

lycan

gil-gen-list-print

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签