实际数据损坏(基于GECO)。

corruptor的Python项目详细描述


腐蚀者

PyPIPyPI - LicensePyPI - Python Version

要实际损坏(文本)数据吗?使用腐蚀者!

pip install corruptor

支持的损坏类型:

  • OCR变化
  • 语音变化
  • 键入错误
  • 编辑(插入、删除、替换、交换)

入门

可以使用三个不同的类。

BasicCorruptor

基本损坏程序使用默认配置为每种类型的损坏提供方法。

>>>fromcorruptorimportBasicCorruptor>>>basic=BasicCorruptor()>>>basic.ocr('johnson')'johnst0n'>>>basic.phonetic('johnson')'johnzon'>>>basic.typo('johnson')'johhson'>>>basic.insert('johnson')'johnsson'>>>basic.delete('johnson')'jhnson'>>>basic.replace('johnson')'johnsin'>>>basic.swap('johnson')'johnsno'

ProbabilisticCorruptor

此类根据提供的权重随机选择损坏类型

>>>fromcorruptorimportProbabilisticCorruptor>>>prob=ProbabilisticCorruptor({'none':0.33,'phonetic':0.33,'typo':0.33})>>>prob.corrupt('conner')'conner'>>>prob.corrupt('conner')'conneah'>>>prob.corrupt('conner')'conber'

DataFrameCorruptor

简言之,数据帧损坏器随机损坏pandas数据帧的n行。

>>>importpandasaspd>>>fromcorruptorimportDataFrameCorruptor>>>df=pd.DataFrame({'firstname':['frank','john'],'lastname':['johnson','conner']})>>>dfc=DataFrameCorruptor({'firstname':(0.5,prob),'lastname':(0.5,prob)})>>>dfc.corrupt(df,n=2)firstnamelastname0frahkjohnson1johnconber

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
实现接口方法时不允许java@Override   使用BuffereImage加载映像时java高ram使用率   java For循环混乱,为什么不是循环?   java Android网格视图字符串对齐问题   java如何将方法与比较类型的附加功能进行比较?   在Java Swing中放置JSepator后的间隙大小   java如何避免并发访问我的网站中的支付链接   java如何从现有的Unix服务器连接到FTP服务器?   Spring中的java用户相关bean定义   带有scribesjava库的wordpress Woocommerce REST API返回消费者密钥参数缺失错误消息   java我可以自动检测特定设备连接的串行端口吗?   Javafx棋盘游戏   java使用JTextPane显示HTML,支持SVG吗?   SpringBoot如何在java中将映射转换为实体对象?   如何使用java代码对xls文件进行密码保护   Java JPA(EclipseLink)如何在持久化实际实体之前接收下一个生成的值?   Javaservlet启动外部进程