pandas数据帧的交互式清理
sherlockml-dataclean的Python项目详细描述
jupyter笔记本扩展和python库,用于交互式清理pandas数据帧,可选择多种技术,从简单替换缺失值到使用受限的boltzmann机器进行插补。
安装
pip install sherlockml-dataclean
jupyter nbextension enable dataclean --py --sys-prefix
用法
像平常一样使用你的笔记本。当python内核中存在pandas数据帧时,您应该会在工具栏中的数据清理器图标上看到一个新的通知。名称以下划线开头的数据帧将被忽略。
数据清理器工具栏图标。
单击图标将打开一个浮动窗口,其中包含内核中数据帧的摘要。单击其中一个数据帧的名称将显示一些数据清理器控件和数据帧列上的一些摘要统计信息。
数据清理程序窗口。
单击其中一列的名称将显示特定于该列的数据清理工具,直方图或条形图显示这些值的分布。创建步骤时,这将对数据分发产生的效果显示为预览。
在列上创建数据清理步骤。
您还可以选择使用受限制的boltzmann机器在数据帧中填充缺失和错误键入的值。这使用sherlockml boltzmannclean包。
创建受限制的Boltzmann机器清洁步骤。
创建步骤后,这些步骤将被添加到处理管道中,该管道可以在“管道”小部件中查看。
数据清理管道。
可以使用这些控件修改或删除这些步骤,准备好后,可以在数据帧上执行管道或将其输出到代码。执行管道将在内核中创建一个后缀为“_cleaned”的新数据帧,而导出将在笔记本中创建一个新的代码单元,定义一个将执行管道清理步骤的python函数。
导出的管道。
注意事项
不支持重复的或非字符串的列名。
对于超过1000行的数据帧,1000行的示例将用于预览和创建处理管道,整个数据帧仅在执行管道时操作。