实际数据损坏(基于GECO)。
corruptor的Python项目详细描述
腐蚀者
要实际损坏(文本)数据吗?使用腐蚀者!
pip install corruptor
支持的损坏类型:
- OCR变化
- 语音变化
- 键入错误
- 编辑(插入、删除、替换、交换)
入门
可以使用三个不同的类。
BasicCorruptor
基本损坏程序使用默认配置为每种类型的损坏提供方法。
>>>fromcorruptorimportBasicCorruptor>>>basic=BasicCorruptor()>>>basic.ocr('johnson')'johnst0n'>>>basic.phonetic('johnson')'johnzon'>>>basic.typo('johnson')'johhson'>>>basic.insert('johnson')'johnsson'>>>basic.delete('johnson')'jhnson'>>>basic.replace('johnson')'johnsin'>>>basic.swap('johnson')'johnsno'
ProbabilisticCorruptor
此类根据提供的权重随机选择损坏类型
>>>fromcorruptorimportProbabilisticCorruptor>>>prob=ProbabilisticCorruptor({'none':0.33,'phonetic':0.33,'typo':0.33})>>>prob.corrupt('conner')'conner'>>>prob.corrupt('conner')'conneah'>>>prob.corrupt('conner')'conber'
DataFrameCorruptor
简言之,数据帧损坏器随机损坏pandas数据帧的n
行。
>>>importpandasaspd>>>fromcorruptorimportDataFrameCorruptor>>>df=pd.DataFrame({'firstname':['frank','john'],'lastname':['johnson','conner']})>>>dfc=DataFrameCorruptor({'firstname':(0.5,prob),'lastname':(0.5,prob)})>>>dfc.corrupt(df,n=2)firstnamelastname0frahkjohnson1johnconber