纠正英语拼写错误并规范化。(例如,“coooooooooolllllllllllll”到“cool”)
pytypo的Python项目详细描述
pytypo
pytypo纠正英语拼写错误。 这个特性是基于打字语料库(http://luululu.com/tweet/) 和维基百科(https://en.wikipedia.org/wiki/Wikipedia:Lists_of_common_misspellings/For_machines)
该模块还规范化了带有重复字母的加长英语表达式。 (例如,此模块将“coooooooooolllllllll”转换为“cool”)
该功能基于以下文件: 塞缪尔·布罗迪和尼古拉斯·迪亚科普洛斯。 太棒了!!!!!!!!!!!!!!使用词加长来检测微博中的情感。 见EMNLP2011,第562-5702011页。 http://aclweb.org/anthology//D/D11/D11-1052.pdf
欢迎投稿!
安装
$ pip install pytypo
用法
导入pytypo
>>> import pytypo
正确句子
>>> pytypo.correct_sentence('you are coooolll!!!') you are cool!
- 正确的句子(str)
正确单词
>>> pytypo.correct('okayyyyy') okay
- 正确(str)
缩短重复的子串,直到没有字典的threshold
>>> pytypo.cut_repeat('mamisaaaaaan', 1) mamisan >>> pytypo.cut_repeat('okayyyyy', 2) okayy
- 重复切割(str,threshold)
- 注意,此方法不使用加长表达式normalize table(例如,cooll-&g t;cool)。 如果要规范化此类表达式,请使用correct()或correct嫒sentence()方法。
许可证
- 这个模块是根据麻省理工学院的许可证授权的。
更改
0.3(2017-10-18)
从维基百科添加许多案例
0.2(2016-04-15)
添加许多案例
0.1(2016-04-14)
第一次释放。