用于Enchant支持的语言的计算分词器
cwsplit的Python项目详细描述
支持的任何语言的复合分词器(CWSPlit) enchant。
用法
导入模块:
fromcwsplitimportsplit
德语(默认)
split('Rindfleisch')# ['rind', 'fleisch']
对于英语:
split('blackboard','en_en')# ['black', 'board']
或
fromcwsplitimportload_dictload_dict('en_en')split('blackboard')# ['black', 'board']有时这个词拼写错了,或者根本不存在。通过执事 单词将被分成几个字符,直到长单词出现。
这种行为的积极影响是在 uerberwachungsaufgaben将被分离。
另一方面,让我们想象一下,我们有一个不存在的词。 gibbrishfleisch,这将被分解成单词gib,b, e,r,i,s,h和fleisch。split('gibberishfleisch',language='de_de')# ['gib', 'b', 'e', 'r', 'i', 's', 'h', 'fleisch']
这看起来一点也不好。这就是为什么你可以选择分拣员 字号,因此所有较短的连续字词都将连接起来。为了 例如,我们将最短的ward定义为4个字符长:
split('gibberishfleisch',language='de_de',min_word_size=4)# ['gibberish', 'fleisch']
现在我们得到两个单词gibberish和fleisch,这是 可能会的。
这不会影响具有连接“s”的正确单词。
例如:
split('übertragungsgesetz',min_word_size=4)# ['übertragung','s', 'gesetz']
保持正确。
算法
这是一个非常简单的递归算法,查找最长的 Word中提供的单词,通过检查它是否存在于 enchant字典。 输出总是作为字符串列表返回。如果没有短词 如果找到,则输入单词将作为单个元素列表返回。
开发人员
上载脚本使用pandoc来 在rstfromat中将readme.md转换为readme,创建 包裹。如果您计划使用 脚本。