用于Enchant支持的语言的计算分词器

cwsplit的Python项目详细描述


build status

支持的任何语言的复合分词器(CWSPlit) enchant

安装

确保安装了Enchant字典。

您可以通过运行:

importenchantprint(enchant.list_languages())

检查pyenchantenchant链接了解更多 信息。

用法

导入模块:

fromcwsplitimportsplit

德语(默认)

split('Rindfleisch')# ['rind', 'fleisch']

对于英语:

split('blackboard','en_en')# ['black', 'board']

fromcwsplitimportload_dictload_dict('en_en')split('blackboard')# ['black', 'board']
有时这个词拼写错了,或者根本不存在。通过执事 单词将被分成几个字符,直到长单词出现。

这种行为的积极影响是在 uerberwachungsaufgaben将被分离。

另一方面,让我们想象一下,我们有一个不存在的词。 gibbrishfleisch,这将被分解成单词gibberishfleisch

split('gibberishfleisch',language='de_de')# ['gib', 'b', 'e', 'r', 'i', 's', 'h', 'fleisch']

这看起来一点也不好。这就是为什么你可以选择分拣员 字号,因此所有较短的连续字词都将连接起来。为了 例如,我们将最短的ward定义为4个字符长:

split('gibberishfleisch',language='de_de',min_word_size=4)# ['gibberish', 'fleisch']

现在我们得到两个单词gibberishfleisch,这是 可能会的。

这不会影响具有连接“s”的正确单词。

例如:

split('übertragungsgesetz',min_word_size=4)# ['übertragung','s', 'gesetz']

保持正确。

算法

这是一个非常简单的递归算法,查找最长的 Word中提供的单词,通过检查它是否存在于 enchant字典。 输出总是作为字符串列表返回。如果没有短词 如果找到,则输入单词将作为单个元素列表返回。

开发人员

上载脚本使用pandoc来 在rstfromat中将readme.md转换为readme,创建 包裹。如果您计划使用 脚本。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java迭代图形框架聚合达到内存限制的消息   反编译和开发人员向Android应用程序提供java安全密钥   活页夹中的java Vaadin上传组件,例如Crud编辑器   java如何定义0090当我有了每个字符   带有AOP的java截取私有注释方法   在Java中暂停并恢复动画(thread.sleep)   java在JavaFX中从不同的控制器向TableView添加行   java如何通过Spring使用脚本初始化inmemory HSQLDB   windows找到了绝对的java。通过编程从java代码获取exe路径   Java同步、信号量和队列的多线程性能   java异步任务回调未调用   java在迷宫中用坐标寻找最短路径   Java:并行处理数组,查找发生异常的位置   java我无法理解我收到的错误   如何调用。bat文件,并使用java中的ProcessBuilder发送字符串   java在mysql数据库中插入日期   将ArrayList的内容显示为格式正确的JSON for Java REST API   java@OneToMany注释SQLSyntaxErrorException:ORA000904无效标识符