在aws emr上运行python包

spark-emr的Python项目详细描述


#火花发动机[构建状态](https://api.travis-ci.org/delijati/spark-emr.svg?(https://travis ci.org/delijati/spararksemr/sparksemr)



>在aws emr上运行一个python包































:最容易的方法,让emr启动并运行的最容易的方法,最容易的方法,最容易的方法是让emr运行起来,最容易的最容易的方法,最容易的方法,最容易就是通过web接口
并创建ssh密钥,然后手动启动集群。然后,创建
所需的子网密钥和emr角色。




/>是的M4.大
实例数:2
大小(单位:GB:100
ssh_key:xxxxx
子网id:subnet-xxxxxx
python_version:python36
emr_version:emr-5.20.0
一致性:false
优化:false
区域:eu-central-1
作业流程角色:emr_ec2_defaultrole
服务角色:emr_u defaultrole

\cli interface


\轮询
群集直到完成,停止群集:

$spark emr start\
[--config.yaml]\
--名称“spark etl”\
--bid master 0.04\
--bid core 0.04\
--cmdline“etl.py--input s3://in/in.csv--output s3://out/out.csv”\
--标记foo 2 bar 4\
--轮询\
--纱线日志\
--包“../”


使用发布的pypackage版本(pip)运行:


$spark emr start\
…\
--package-pip+etl-pypackage



35








-packark-emr-list[--config.config.yaml][--filtesomekey-somekey-somevalue]




br/>返回集群/>
###停止






$spark emr stop--cluster id j-xxxxx



spark emr stop--spark emr stop--cluster id j-xxxxx-spark-spot-price check


>此调用返回所有区域和配置实例的现货价格:





$spark emr spot



直接从> BR/BI/BR/BI/SCOPARTION \BR/>——主纱\BAF/C>。AppMistNv.PySpkkPython=Python 35\Br/> -COMPUTROKENV.PySpkkyPython=Python 35\BR/> /Ur/Prase/BI/ETL.PY——输入S3://I/N.CSV输出S3://Out/OUT.CSV
BR/>运行命令大师:
要测试Spark是否按预期运行,我们可以在Docker中本地运行它。

$git clone https://github.com/delijati/spark docker
$cd spark docker
$Docker build。--pull-t spark现在我们可以在本地运行spark作业了。

$docker run--rm-ti-v`pwd`/test/dummy:/app/work spark\
bash-c“cd/app/work&;pip3 install-e。&;amp;《星星之火》剧照10“










<0.1.2(2019-03-10-2019-03-10)
=-




-增加抽查价格-增加抽查价格。
-显示估计成本。
-按标签筛选清单清单清单清单清单清单。


















-setup.py.py.py-setup.py.py.py.py中



0.1.0(2019-02-21)
---------

-初次发布。




欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何从数组中打印int值?   prepared语句Java中奇怪的异常PreparedStatement:参数索引超出范围   封装如何在OOP Java中为主方法编码?   java某些手机显示快捷方式徽章需要什么权限?   java TextView不会随OnItemSelectedListener更改   java注释处理器不会自动触发吗?   java Spring JPA如何计算外键数   c#对于这个简单的OOAD问题,哪种设计最优雅?   java如何处理while循环中的异常?   Android Studio错误:进程'command'/home/draven/Downloads/安卓studio/jre/bin/java''结束,退出值为非零2   在使用Payara服务器的Vaadin应用程序中导航到根目录时,java将丢失上下文根目录   使用contentType application/json而不是application/jsonpatch+json的java修补程序   带有tomcat的java HAproxy连接不足   Java:在应用过滤器后创建一个简单的通用方法进行计数   java如何使用多态性创建一个实例化对象的方法,然后用它们高效地填充ArrayList?