Python spark-etl包_程序模块 - PyPI

apachespark的通用ETL管道框架

spark-etl的Python项目详细描述

概述

目标

spark_etl提供了一种独立于平台的构建spark应用程序的方法。在

收益

您的应用程序可以移动到不同的spark平台，而无需更改或很少更改。在

支撑平台

通过pyspark软件包实现本地spark。在
具有Livy接口的火花簇
Oracle数据流

概念

应用

应用程序是spark工作的代码。它包含：

包含应用程序项的main.py文件
一个manifest.json文件，它指定应用程序的元数据。在
指定应用程序依赖关系的requirements.txt文件。在

例如，请参见examples/myapp。在

生成应用程序

要构建应用程序，请运行

./etl.py -a build --app-dir <app-dir> --build-dir <build-dir>

在
<app_dir>是应用程序所在的目录。在
在
在
<build-dir>是要部署生成的目录
- 您的构建实际上位于<build-dir>/<version>，其中<version>由应用程序的清单文件指定
在
在
Build大部分与平台无关。如果打算使用oci数据流，则需要依赖软件包oci核心
在

应用程序条目签名

在应用程序的main.py中，您应该有一个带有以下签名的main函数：

spark是spark session对象
input_argsdict是用户在运行此作业时指定的参数。在
sysops是传递的系统选项，它是特定于平台的。在
您的main函数的返回值将从作业提交者返回给调用者。在

^{pr2}$
例如，请参见here。在
部署人员
spark_etl支持以下部署程序
spark_etl.vendors.local.LocalDeployer
spark_etl.deployers.HDFSDeployer
spark_etl.vendors.oracle.DataflowDeployer
在
etl.py命令使用配置文件来决定使用哪个部署程序
作业提交人
spark_etl支持以下作业提交程序
spark_etl.vendors.local.PySparkJobSubmitter
spark_etl.job_submitters.livy_job_submitter.LivyJobSubmitter
spark_etl.vendors.oracle.DataflowJobSubmitter
在
作业摘要器的run函数返回作业的main函数的retrun值。在
etl.py命令使用配置文件来决定要使用的作业提交者
使用etl.py命令部署作业：（examples/etl.py）
./etl.py -a deploy \ -c <config-filename> \ --build-dir <build-dir> \ --deploy-dir <deploy-dir>
-c <config-filename>：此选项指定用于部署的配置文件
--build-dir <build-dir>：此选项指定在何处查找要部署的构建位
--deolpy-dir <deploy-dir>：此选项指定部署的目标
运行作业
./etl.py -a run \ -c <config-filename> \ --deploy-dir <deploy-dir> \ --version <version> \ --args <input-json-file>
-c <config-filename>：此选项指定配置文件
--build-dir <build-dir>：此选项指定在何处查找要运行的构建位
--version <version>：此选项指定要运行的应用程序版本
--args <input-json-file>：作业的输入变量的可选参数。<input-json-file>指向一个json文件，该文件的值将传递给input_args参数中的job的main函数。如果缺少此选项，则在调用作业的main函数时，input_args将被设置为{}。在
它打印作业的main函数的返回值
示例
Build, deploy and run in local spark
Build, deploy and run in spark cluster
Build, deploy and run in OCI Dataflow
标签：
项目
欢迎加入QQ群-->： 979659372
推荐PyPI第三方库
mistra-providers
MISTRA Providers包含MISTRA包的自定义提供程序的集合
NlpToolkit-FrameNet-C
框架网库
localizedstringkit
直接从代码生成.strings文件
QazaqstanPhoneNumberParser
未提供项目说明
gy-probabilit
高斯分布
ZSAdvancedViz
基于python的可视化库，提供随时可用的函数来呈现不同类型的图表
mbedcli
防止漏洞攻击的软件包
pypropgraph
python属性图库
cpmd-cube-tools
python库和工具，用于读入和操作Gaussian和CPMD立方体文件。
minipresto
一个命令行工具，它使本地运行模块化Presto环境变得容易。
kessler
基于仿真推理和机器学习的空间碰撞评估与避免。
dayang-sdk-python
python sdk强大
crank-nicolson-numba
CrankNicolson的numba实现
dsnd-distributions-060519930469
高斯分布
edxccxkeys
防止漏洞攻击的软件包

导航栏
项目描述
版本历史
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
stonezhong
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何用if条件捕获函数返回值
如何用if语句判断列表中是否存在该索引？
如何用if语句向量化numpy数组中的最大值？
如何用IF语句有条件地保存零碎的结果？
如何用if语句测试异常对象？
如何用IF语句编写二元函数
如何用igraph在python中创建顶点权重的图？
如何用ijson和python解析json
如何用iloc求子矩阵
如何用Imagemagick或PIL绘制高质量的图像笔划（边框）？
如何用importlib在python中动态导入模块？
如何用import语句重写python内置函数？
如何用imshow混合裁剪的强度并显示正确的混合强度？
如何用in dictionary解析havin dictionary中的json文件
如何用in-Django URL替换%20

spark-etl 0.0.11

spark-etl的Python项目详细描述

概述

目标

收益

支撑平台

概念

应用

生成应用程序

应用程序条目签名

部署人员

作业提交人

使用`etl.py`命令部署作业：（`examples/etl.py`）

运行作业

示例

推荐PyPI第三方库

mistra-providers

NlpToolkit-FrameNet-C

localizedstringkit

QazaqstanPhoneNumberParser

gy-probabilit

ZSAdvancedViz

mbedcli

pypropgraph

cpmd-cube-tools

minipresto

kessler

dayang-sdk-python

crank-nicolson-numba

dsnd-distributions-060519930469

edxccxkeys

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

spark-etl 0.0.11

spark-etl的Python项目详细描述

概述

目标

收益

支撑平台

概念

应用

生成应用程序

应用程序条目签名

部署人员

作业提交人

使用etl.py命令部署作业：（examples/etl.py）

运行作业

示例

推荐PyPI第三方库

mistra-providers

NlpToolkit-FrameNet-C

localizedstringkit

QazaqstanPhoneNumberParser

gy-probabilit

ZSAdvancedViz

mbedcli

pypropgraph

cpmd-cube-tools

minipresto

kessler

dayang-sdk-python

crank-nicolson-numba

dsnd-distributions-060519930469

edxccxkeys

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

使用`etl.py`命令部署作业：（`examples/etl.py`）

导航栏

项目链接

标签