将DynamicFrame语法更接近于DataFrames
easyglue的Python项目详细描述
易趣
这个项目的目标是使AWS Glue的DynamicFrame的用法与apachespark的DataFrame更相似,以便新手更容易使用API。让我们以一个简单的S3读取CSV数据集为例:
数据帧S3读取:
spark.read().csv('s3://test_path/', header=True)
动态帧S3读取:
^{pr2}$如您所见,这里的语法完全不同。使用EasyGlue,可以将DynamicFrame read操作转换为更类似的操作:
glue.read().format_option('withHeader', True).csv('s3://test_path/')
当前支持的选项
项目目前支持:
- 以任何支持的格式从S3读取
- 从数据目录表读取
使用
要在项目中使用EasyGlue,请执行以下操作:
- 下载源代码:
git clone https://github.com/albertquiroga/EasyGlue.git
- 进入项目的目录,并将其构建到一个wheel文件中:
python setup.py build bdist_wheel
- 将创建一个新的
dist
目录,您可以在其中找到构建的wheel文件。将这个上传到S3并将其作为库添加到Glue ETL作业中 - 在ETL作业代码中,只需在顶部添加
import easyglue
行
路线图
- 从JDBC源读取
- 写
- 将格式/连接选项转换为方法参数,以便进行更相似、更紧凑的方法调用
- 项目
标签: