数据驱动程序API包

pyddapi的Python项目详细描述


[![水蟒服务器徽章](https://anaconda.org/octo/pyddapi/badges/installer/conda.svg)](https://conda.anaconda.org/octo) [![水蟒服务器徽章](https://anaconda.org/octo/pyddapi/badges/platforms.svg)](https://anaconda.org/octo/pyddapi) [![水蟒服务器徽章](https://anaconda.org/octo/pyddapi/badges/latest_release_date.svg)](https://anaconda.org/octo/pyddapi) [![水蟒服务器徽章](https://anaconda.org/octo/pyddapi/badges/version.svg)](https://anaconda.org/octo/pyddapi

#DDAPI简介 -[它是什么](它是什么) -[安装](安装) -[贡献](贡献)

##这是什么?

以下部分描述数据驱动程序环境中使用的主要概念。

###工作流程 数据驱动程序工作流是连接在一起的任务网络(python函数)。此工作流通常被描述为DAG(直接无环图)。这些作业可以执行各种python代码,如数据加载、特性工程、模型拟合、警报等。

可以使用工具气流在数据驱动程序体系结构中计划和监视工作流。数据驱动程序api将数据科学功能添加到airlow和审核每个任务的输入/输出的能力中。

###数据驱动程序API或DDAPI

ddapi是一个python库。它是数据驱动程序的访问层,您可以使用它来操作数据集和工作流。下面将介绍一些主要用法,有关更多信息和教程,您可以访问octo笔记本教程库。

`python import dd `

ddapi由几个模块组成。

####数据库模块

import dd.db

db是与数据库交互的一种更简单的方式。您可以使用它来浏览数据库或导入新数据。

####上下文模块

from dd.api.contexts.distributed import AirflowContext from dd.api.contexts.local import LocalContext

上下文是一个对象,允许您在探索过程中与环境进行通信。因此,它需要能够与您的数据库通信。这是通过创建一个db对象并将其传递给上下文构造函数来完成的。

####数据集模块

import dd.api.workflow.dataset

您可以将数据集视为熊猫数据帧的包装器。如果您熟悉这个很棒的库,它会让您访问一些您可能会识别的方法。

###免责声明

####不适用于/不适用于:

  • Code versionning
  • Enforce good code quality
  • Data quality tool
  • ETL
  • Data Catalog & Data Lineage
  • Data visualisation
  • Datalake
  • Magical stuffs
  • Coffee

####它是一套集成到独特平台中的工具,可加速数据科学的发展:

  • we have made an API that lets DataScientists use the same technologies they use in exploration to do industrialisation, because we saw it was the most impactfull parameter on the success of the project. (DDAPI)
  • monitore Machine Learning models (your code + DDAPI + Airflow)
  • schedule builds of datascience’s pipeline (your code + DDAPI + Airflow)
  • datascience feature engineering functions (your code + BDACore)
  • metrics and datascience helpers to study model shifting (BDACore)
  • integration of open source standards Jupyterhub, Airflow and PostgreSQL together (Lab and Factory machine roles)

##安装

最新版本

pip install pyddapi

last build from master

pip install -i https://pypi.anaconda.org/octo/label/dev/simple pyddapi

###开发人员设置

####设置虚拟环境

virtualenv venv source venv/bin/activate pip install -e . pip install -r ci/tests_requirements.txt

ddapi只支持python版本2.7和3.6/不建议与其他版本一起运行ddapi,因此,如果可能,请避免使用,否则自行承担风险。

您可以在[anaconda cloud repository](https://anaconda.org/octo/pyddapi)中找到该包

##贡献 如果你想贡献代码,别忘了检查 [开发人员指南](devguide.md)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java变量始终存储0值。为什么?   如何使用Java/REST将Azure blob从一个存储容器移动到另一个存储容器?   java将commons DBCP从1.2升级到1.4,我应该害怕吗?   java如何使用分隔符拆分字符串?   java使用数组读取json对象   java在groovy中切片字符串   交换数组java的两个邻域元素   java移动用于确定字符串是否为回文的逻辑   java Android应用程序在一个活动中崩溃   java Sparkjava将webapp文件夹设置为静态资源/模板的文件夹   java复杂条件表达式,用户易用。   java如何仅在表存在时从表中选择值   java I无法将数据从Recyclerview传递到其他活动   java数据结构最佳设计(大数据)   java Android从DatePickerDialogFragment中删除日历视图   java将数据从Firebase获取到片段   数组。sort()在java中运行不正常