使用sysmepll进行拼写更正的spacy管道组件。

spacy-symspell的Python项目详细描述


#Spacy符号拼写 ##通过symspell在spacy中实现拼写更正

这个包是一个[spacy 2.0扩展名](https://spacy.io/usage/processing-pipelines#section-extensions),它通过syms拼将sentnee/拼写更正添加到spacy的文本处理管道中。

##安装

pip安装spacy\u符号拼写

##注释 此包仍在alpha中,可能存在无法预料的错误。词典加载时间也很重要,在速度较慢的机器上可能需要30秒。

##用法

将组件添加到处理管道相对简单:

import spacy from spacy_symspell import SpellingCorrector

nlp = spacy.load(‘en_core_web_sm’) corrector = SpellingCorrector() nlp.add_pipe(corrector) doc = nlp(‘What doyuoknowabout antyhing’)

for s in doc._.suggestions:#iterable
print(s) #What doyon about anything

doc._.segmentation #::segmented_string - What doyouk now about antyhing ::corrected_string - that dook now about anything

spacy_symspell操作docspanspacy对象。当在docspan上调用时,对象被赋予两个属性:suggestions(找到的所有拼写建议的列表)和segmentation(在使用ommitted spaces的情况下是正确的句子)。

##待办事项 通过提取和分析得到的n个字符,并与符号拼写结果中的字符组中可扣除的n个字符进行交叉引用,可以借助SPAcy提高符号拼写的准确性。例如,更正后的“that dook now”给我们留下了一个无动词的句子,仔细分析后会发现,字符组“now”与动词“know”相关,动词“know”与n-gram“you know”相关。

##在引擎盖下 [spacy_symspell](https://github.com/xwiz/spacy_symspell)当前是[symspell](https://github.com/wolfgarbe/SymSpell)的[python端口(https://github.com/mammothb/symspellpy)的包装。有关其他详细信息,请参见链接的项目页面。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用ContentExchange设置请求属性   java Spark/Hdfs/Hdfsclient兼容性   java springcloudstreamkafka配置:instanceCount和instanceIndex   Java中web服务序列化日期   java用动态数据替换占位符   java git gc似乎覆盖了一个packfile,留下了一个打开的文件描述符,其中包含对“oldxxx.pack”的引用   为什么Apache项目对Java版本敏感?   java Anylogic帮助如何在导入的3dobject通过输送机上的多个“站”时更改其颜色?   JavaEclipseNeonM2E可以导入一个大型项目,但似乎不能自动解决依赖关系   java@FindBy搜索具有满足条件的子元素的元素   java如何将ActionEvent e与键绑定一起使用?   java转换以集中方式从外部库抛出的异常   java中用户文件/数据文件与系统/程序文件的区别   java使用变量字符串或字符作为对象名   字体使用Java图形操纵字符串中每个字符的形状   JavaFX图表移动数据   java RandomAccessFile:将所有项设置为相同的字节数?   java Google Play inapp Billing onPurchasesUpdated()错误响应代码1   java在不知道属性名和属性数的情况下处理json对象   java是否可以一次从HazelcastInstance(映射和列表)中删除所有数据?