协作数据清理的脚手架方法和测试。
tddc的Python项目详细描述
这个包提供了一个协作的、测试驱动的数据清理框架。该框架支持一种可重复的数据清理方法,该方法易于验证。
对于给定的表格数据集,trello板为每个列填充卡片,以便团队成员可以将自己标记到列,并确保工作不会重叠。这些卡片包括列的摘要统计信息,这些统计信息对于编写清理列的方法非常有用。方法存根和测试存根也被搭建起来供团队成员填写。
用法:
这在使用python 2.7、3.3、3.4和3.5的linux上工作,在使用python2.7和3.5的osx上工作(可能还有3.3和3.4,但这些还没有测试)。 它在windows上工作(使用python 3.5.2::anaconda 4.1.1(64位)测试)。 不过,在windows上使用tddc与trello的集成还有待测试。
安装软件包时使用: $ pip install tddc
您可以在以下位置下载一个很小的示例csv文件:https://github.com/DataKind-SG/test-driven-data-cleaning/raw/master/input/foobar_data.csv
在与文件相同的目录中,运行:
$ tddc summarize foobar_data.csv
这将获取csv数据集并对其进行汇总,输出到新创建的输出/目录中的json文件。
接下来,您可以运行:
$ tddc build_trello foobar_data.csv
第一次运行此命令时,它将失败,并指示如何在根目录中创建trello配置文件(将来,可能应该通过cli创建)。 创建后,可以再次尝试运行该步骤。这将创建一个trello板。我的跑步记录在这里:https://trello.com/b/cqP9VZal/data-cleaning-board-for-foobar-data
最后,您可以运行:
$ tddc build foobar_data.csv
这会将一个脚本输出到output/文件夹中,其中包含方法存根和用于清理数据集的粘合代码。它还为output/中的测试输出存根。
贡献:
在运行测试之前,您需要运行:
$ pip install pytest pytest-cov mock
然后,在项目目录的根目录中,可以使用以下命令运行测试:
$ py.test
我们正在尝试新的github项目特性。我们目前正在进行的项目是https://github.com/DataKind-SG/test-driven-data-cleaning/projects/1
每张卡都是一个问题,你可以点击通过。如果你想带张卡片(谢谢!),将卡移动到“进行中”列,并将自己分配给问题。完成后,发出拉取请求并将卡移动到“供审阅”。
如果您想到新问题,请在相应的项目中创建卡,并在下拉菜单中将卡转换为问题(当前无法从卡链接到已创建的问题)。