自动数据清理工具
datacleanbot的Python项目详细描述
数据清理机器人
自动数据清理工具。
主要目标是开发一个python工具datacleanbot
,以便:
给定表示监督学习问题的随机解析原始数据集,python工具能够自动识别潜在问题,并以有效的方式将结果和建议报告给最终用户。
安装
$ pip install datacleanbot
快速启动
从openml获取数据:
>>> import openml as oml
>>> data = oml.datasets.get_dataset(id) # id: openml dataset id
>>> X, y, features = data.get_data(target=data.default_target_attribute, return_attribute_names=True)
>>> Xy = data.get_data()
使用datacleanbot自动清理数据
>>> import datacleanbot.dataclean as dc
>>> Xy = dc.autoclean(Xy, data.name, features)
说明
datacleanbot
具有以下功能:
- 提供给定数据集的概述报告
- 最重要的功能
- 统计信息(例如,平均值、最大值、最小值)
- 功能的数据类型
- 清除原始数据集中的常见数据问题
- 重复记录
- 列名不一致
- 缺少值
- 异常值
有意义的自动机的三个方面用粗体标记。
用户指南
用户指南可在datacleanbot找到。