协作数据清理的脚手架方法和测试。

tddc的Python项目详细描述


Build Status

这个包提供了一个协作的、测试驱动的数据清理框架。该框架支持一种可重复的数据清理方法,该方法易于验证。

对于给定的表格数据集,trello板为每个列填充卡片,以便团队成员可以将自己标记到列,并确保工作不会重叠。这些卡片包括列的摘要统计信息,这些统计信息对于编写清理列的方法非常有用。方法存根和测试存根也被搭建起来供团队成员填写。

用法:

这在使用python 2.7、3.3、3.4和3.5的linux上工作,在使用python2.7和3.5的osx上工作(可能还有3.3和3.4,但这些还没有测试)。 它在windows上工作(使用python 3.5.2::anaconda 4.1.1(64位)测试)。 不过,在windows上使用tddc与trello的集成还有待测试。

安装软件包时使用: $ pip install tddc

您可以在以下位置下载一个很小的示例csv文件:https://github.com/DataKind-SG/test-driven-data-cleaning/raw/master/input/foobar_data.csv

在与文件相同的目录中,运行:

$ tddc summarize foobar_data.csv

这将获取csv数据集并对其进行汇总,输出到新创建的输出/目录中的json文件。

接下来,您可以运行:

$ tddc build_trello foobar_data.csv

第一次运行此命令时,它将失败,并指示如何在根目录中创建trello配置文件(将来,可能应该通过cli创建)。 创建后,可以再次尝试运行该步骤。这将创建一个trello板。我的跑步记录在这里:https://trello.com/b/cqP9VZal/data-cleaning-board-for-foobar-data

最后,您可以运行:

$ tddc build foobar_data.csv

这会将一个脚本输出到output/文件夹中,其中包含方法存根和用于清理数据集的粘合代码。它还为output/中的测试输出存根。

贡献:

在运行测试之前,您需要运行:

$ pip install pytest pytest-cov mock

然后,在项目目录的根目录中,可以使用以下命令运行测试:

$ py.test

我们正在尝试新的github项目特性。我们目前正在进行的项目是https://github.com/DataKind-SG/test-driven-data-cleaning/projects/1

每张卡都是一个问题,你可以点击通过。如果你想带张卡片(谢谢!),将卡移动到“进行中”列,并将自己分配给问题。完成后,发出拉取请求并将卡移动到“供审阅”。

如果您想到新问题,请在相应的项目中创建卡,并在下拉菜单中将卡转换为问题(当前无法从卡链接到已创建的问题)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
ArrayList Java中的搜索字符串   另一个web应用程序的java访问会话   另一个应用程序中的活动和服务之间的java通信   java根据Json字符串类型将Json字符串转换为对象   eclipse如何解决java中的错误异常。lang.NoSuchMethodError:'java。字符串javax。摆动JOptionPane。showInputDialog(java.lang.String)'   线程“main”java中的安卓异常。lang.NoClassDefFoundError:org/codehaus/jackson/JsonParseException   java如何在安卓 emulator上显示Mat图像?使用NDK   Java在本地读取测试源文件,但在服务器上读取失败   java dowhile循环用于计算输入数字中的数字。故障排除代码   JAva初学者在编写获取成本的方法时遇到困难   java是shell游戏。我如何让物体移动,特别是在特定的曲线上,但顺序是随机的?   java如何区分两个同名的JButton   java为什么我在Spring Boot中需要一个接口?   java将文件路径插入数据库将删除\   使用InterfaceType初始化java对象   java如何部署一个分为Angular、Spring Boot和MySQL的项目?   java如何使用Symja解决不等式?