数据驱动程序API包

pyddapi的Python项目详细描述


[![水蟒服务器徽章](https://anaconda.org/octo/pyddapi/badges/installer/conda.svg)](https://conda.anaconda.org/octo) [![水蟒服务器徽章](https://anaconda.org/octo/pyddapi/badges/platforms.svg)](https://anaconda.org/octo/pyddapi) [![水蟒服务器徽章](https://anaconda.org/octo/pyddapi/badges/latest_release_date.svg)](https://anaconda.org/octo/pyddapi) [![水蟒服务器徽章](https://anaconda.org/octo/pyddapi/badges/version.svg)](https://anaconda.org/octo/pyddapi

#DDAPI简介 -[它是什么](它是什么) -[安装](安装) -[贡献](贡献)

##这是什么?

以下部分描述数据驱动程序环境中使用的主要概念。

###工作流程 数据驱动程序工作流是连接在一起的任务网络(python函数)。此工作流通常被描述为DAG(直接无环图)。这些作业可以执行各种python代码,如数据加载、特性工程、模型拟合、警报等。

可以使用工具气流在数据驱动程序体系结构中计划和监视工作流。数据驱动程序api将数据科学功能添加到airlow和审核每个任务的输入/输出的能力中。

###数据驱动程序API或DDAPI

ddapi是一个python库。它是数据驱动程序的访问层,您可以使用它来操作数据集和工作流。下面将介绍一些主要用法,有关更多信息和教程,您可以访问octo笔记本教程库。

`python import dd `

ddapi由几个模块组成。

####数据库模块

import dd.db

db是与数据库交互的一种更简单的方式。您可以使用它来浏览数据库或导入新数据。

####上下文模块

from dd.api.contexts.distributed import AirflowContext from dd.api.contexts.local import LocalContext

上下文是一个对象,允许您在探索过程中与环境进行通信。因此,它需要能够与您的数据库通信。这是通过创建一个db对象并将其传递给上下文构造函数来完成的。

####数据集模块

import dd.api.workflow.dataset

您可以将数据集视为熊猫数据帧的包装器。如果您熟悉这个很棒的库,它会让您访问一些您可能会识别的方法。

###免责声明

####不适用于/不适用于:

  • Code versionning
  • Enforce good code quality
  • Data quality tool
  • ETL
  • Data Catalog & Data Lineage
  • Data visualisation
  • Datalake
  • Magical stuffs
  • Coffee

####它是一套集成到独特平台中的工具,可加速数据科学的发展:

  • we have made an API that lets DataScientists use the same technologies they use in exploration to do industrialisation, because we saw it was the most impactfull parameter on the success of the project. (DDAPI)
  • monitore Machine Learning models (your code + DDAPI + Airflow)
  • schedule builds of datascience’s pipeline (your code + DDAPI + Airflow)
  • datascience feature engineering functions (your code + BDACore)
  • metrics and datascience helpers to study model shifting (BDACore)
  • integration of open source standards Jupyterhub, Airflow and PostgreSQL together (Lab and Factory machine roles)

##安装

最新版本

pip install pyddapi

last build from master

pip install -i https://pypi.anaconda.org/octo/label/dev/simple pyddapi

###开发人员设置

####设置虚拟环境

virtualenv venv source venv/bin/activate pip install -e . pip install -r ci/tests_requirements.txt

ddapi只支持python版本2.7和3.6/不建议与其他版本一起运行ddapi,因此,如果可能,请避免使用,否则自行承担风险。

您可以在[anaconda cloud repository](https://anaconda.org/octo/pyddapi)中找到该包

##贡献 如果你想贡献代码,别忘了检查 [开发人员指南](devguide.md)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用Java中的扫描仪读取文本文件中的特定字符?   java如果我们在hibernate中开始事务但不提交它,会发生什么?   Azure CosmosDB Java Springboot中的无服务器帐户不支持spring boot设置提供吞吐量或容器自动导航   附加到新对象的Java注释?   java如何将自定义文本视图添加到。在Kotlin中添加通知操作   java Shibboleth添加_OpenSAMLcookies,导致HTTP头大小>8k   分布式传感器数据(~40Hz)的高效Java观测器设计   java如何在while循环外声明数组,但在while循环中初始化它?   用@XmlElementRef注释的java元素没有显示在JAXB编组字符串中?   java替换二维数组的值   java如何在任务栏上创建Windows7加载栏   java如何在组件注释bean中使用会话或RequestScope bean?   java netbeans freermarker插件错误:在实现版本中请求netbeans桥的插件Lexer   java谷歌地图方向。加载失败,返回服务器错误   java当我试图递归地计算两个值之间的整数之和时,为什么结果返回一个奇怪的值?   java如何通过html文件的用户获取运行时输入,以使用Jsoup进行解析?