纠正英语拼写错误并规范化。(例如,“coooooooooolllllllllllll”到“cool”)

pytypo的Python项目详细描述


pytypo

travis-ci.orgcoveralls.ioCode Healthpyversionlatest versionlicense

pytypo纠正英语拼写错误。 这个特性是基于打字语料库(http://luululu.com/tweet/) 和维基百科(https://en.wikipedia.org/wiki/Wikipedia:Lists_of_common_misspellings/For_machines

该模块还规范化了带有重复字母的加长英语表达式。 (例如,此模块将“coooooooooolllllllll”转换为“cool”)

该功能基于以下文件: 塞缪尔·布罗迪和尼古拉斯·迪亚科普洛斯。 太棒了!!!!!!!!!!!!!!使用词加长来检测微博中的情感。 见EMNLP2011,第562-5702011页。 http://aclweb.org/anthology//D/D11/D11-1052.pdf

欢迎投稿!

安装

$ pip install pytypo

用法

导入pytypo

>>> import pytypo

正确句子

>>> pytypo.correct_sentence('you are coooolll!!!')
you are cool!
  • 正确的句子(str)

正确单词

>>> pytypo.correct('okayyyyy')
okay
  • 正确(str)

缩短重复的子串,直到没有字典的threshold

>>> pytypo.cut_repeat('mamisaaaaaan', 1)
mamisan
>>> pytypo.cut_repeat('okayyyyy', 2)
okayy
  • 重复切割(str,threshold)
    • 注意,此方法不使用加长表达式normalize table(例如,cooll-&g t;cool)。 如果要规范化此类表达式,请使用correct()correct嫒sentence()方法。

许可证

  • 这个模块是根据麻省理工学院的许可证授权的。

更改

0.3(2017-10-18)

从维基百科添加许多案例

0.2(2016-04-15)

添加许多案例

0.1(2016-04-14)

第一次释放。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java log4j找不到log4jtest。房产?   我在java线程“awteventque1”中获得异常。lang.NullPointerException   java为什么在使用完整路径从文件系统读取文件时出错?   java如何迭代所有注册表项?   java中的安卓 Opencv SVM未正确训练   多线程Java ThreadPoolExecutor关闭特定线程?   如何使用Java NIO CreateDirectory方法设置目录所有者组?   java NatTable混合了固定宽度的列和可调整大小的填充剩余空间   java如何删除特定网络,即使该网络是由安卓上的其他设备创建的?   java Guava toJavaUtil()不存在   java对许多常量使用枚举是有效的memorywise?   java是否可以使用坐标定位JButton?   从WSDL生成java代码导致异常   java如何在安卓中导出javadoc   爬行JAX中的java NoClassDefFoundError错误   java为片段中的文本视图设置区域设置   发送最后一条消息后发生Java RMI RemoteException