在aws emr上运行python包
spark-emr的Python项目详细描述
#火花发动机[构建状态](https://api.travis-ci.org/delijati/spark-emr.svg?(https://travis ci.org/delijati/spararksemr/sparksemr)
>在aws emr上运行一个python包
:最容易的方法,让emr启动并运行的最容易的方法,最容易的方法,最容易的方法是让emr运行起来,最容易的最容易的方法,最容易的方法,最容易就是通过web接口
并创建ssh密钥,然后手动启动集群。然后,创建
所需的子网密钥和emr角色。
/>是的M4.大
实例数:2
大小(单位:GB:100
ssh_key:xxxxx
子网id:subnet-xxxxxx
python_version:python36
emr_version:emr-5.20.0
一致性:false
优化:false
区域:eu-central-1
作业流程角色:emr_ec2_defaultrole
服务角色:emr_u defaultrole
\cli interface
\轮询
群集直到完成,停止群集:
$spark emr start\
[--config.yaml]\
--名称“spark etl”\
--bid master 0.04\
--bid core 0.04\
--cmdline“etl.py--input s3://in/in.csv--output s3://out/out.csv”\
--标记foo 2 bar 4\
--轮询\
--纱线日志\
--包“../”
使用发布的pypackage版本(pip)运行:
$spark emr start\
…\
--package-pip+etl-pypackage
35
-packark-emr-list[--config.config.yaml][--filtesomekey-somekey-somevalue]
br/>返回集群/>
###停止
$spark emr stop--cluster id j-xxxxx
spark emr stop--spark emr stop--cluster id j-xxxxx-spark-spot-price check
>此调用返回所有区域和配置实例的现货价格:
$spark emr spot
直接从> BR/BI/BR/BI/SCOPARTION \BR/>——主纱\BAF/C>。AppMistNv.PySpkkPython=Python 35\Br/> -COMPUTROKENV.PySpkkyPython=Python 35\BR/> /Ur/Prase/BI/ETL.PY——输入S3://I/N.CSV输出S3://Out/OUT.CSV
BR/>运行命令大师:
要测试Spark是否按预期运行,我们可以在Docker中本地运行它。
$git clone https://github.com/delijati/spark docker
$cd spark docker
$Docker build。--pull-t spark现在我们可以在本地运行spark作业了。
$docker run--rm-ti-v`pwd`/test/dummy:/app/work spark\
bash-c“cd/app/work&;pip3 install-e。&;amp;《星星之火》剧照10“
<0.1.2(2019-03-10-2019-03-10)
=-
-增加抽查价格-增加抽查价格。
-显示估计成本。
-按标签筛选清单清单清单清单清单清单。
-setup.py.py.py-setup.py.py.py.py中
0.1.0(2019-02-21)
---------
-初次发布。
>在aws emr上运行一个python包
:最容易的方法,让emr启动并运行的最容易的方法,最容易的方法,最容易的方法是让emr运行起来,最容易的最容易的方法,最容易的方法,最容易就是通过web接口
并创建ssh密钥,然后手动启动集群。然后,创建
所需的子网密钥和emr角色。
/>是的M4.大
实例数:2
大小(单位:GB:100
ssh_key:xxxxx
子网id:subnet-xxxxxx
python_version:python36
emr_version:emr-5.20.0
一致性:false
优化:false
区域:eu-central-1
作业流程角色:emr_ec2_defaultrole
服务角色:emr_u defaultrole
\cli interface
\轮询
群集直到完成,停止群集:
$spark emr start\
[--config.yaml]\
--名称“spark etl”\
--bid master 0.04\
--bid core 0.04\
--cmdline“etl.py--input s3://in/in.csv--output s3://out/out.csv”\
--标记foo 2 bar 4\
--轮询\
--纱线日志\
--包“../”
使用发布的pypackage版本(pip)运行:
$spark emr start\
…\
--package-pip+etl-pypackage
35
-packark-emr-list[--config.config.yaml][--filtesomekey-somekey-somevalue]
br/>返回集群/>
###停止
$spark emr stop--cluster id j-xxxxx
spark emr stop--spark emr stop--cluster id j-xxxxx-spark-spot-price check
>此调用返回所有区域和配置实例的现货价格:
$spark emr spot
直接从> BR/BI/BR/BI/SCOPARTION \BR/>——主纱\BAF/C>。AppMistNv.PySpkkPython=Python 35\Br/> -COMPUTROKENV.PySpkkyPython=Python 35\BR/> /Ur/Prase/BI/ETL.PY——输入S3://I/N.CSV输出S3://Out/OUT.CSV
BR/>运行命令大师:
要测试Spark是否按预期运行,我们可以在Docker中本地运行它。
$git clone https://github.com/delijati/spark docker
$cd spark docker
$Docker build。--pull-t spark现在我们可以在本地运行spark作业了。
$docker run--rm-ti-v`pwd`/test/dummy:/app/work spark\
bash-c“cd/app/work&;pip3 install-e。&;amp;《星星之火》剧照10“
<0.1.2(2019-03-10-2019-03-10)
=-
-增加抽查价格-增加抽查价格。
-显示估计成本。
-按标签筛选清单清单清单清单清单清单。
-setup.py.py.py-setup.py.py.py.py中
0.1.0(2019-02-21)
---------
-初次发布。